El aragonés refuerza su presencia digital con las voces de cientos de voluntarios

La Academia Aragonesa de la Lengua trabaja desde el mes de noviembre con la Fundación Mozilla para crear un corpus de audios para reforzar la presencia del idioma en los nuevos modelos en la nube

Decenas de personas se manifiestan por el Aragón trilingüe, en una movilización organizada en febrero de 2024.

Decenas de personas se manifiestan por el Aragón trilingüe, en una movilización organizada en febrero de 2024. / Jaime Galindo

David Chic

David Chic

La Academia Aragonesa de la Lengua (AAL) mantiene su labor soterrada en un contexto político que parece no estar muy por la labor en las celebraciones del Día de la Lengua Materna. La institución, con la vista puesta en la revolución digital del algoritmo, está trabajando desde el mes de noviembre con la Fundación Mozilla para crear un corpus paralelo texto-voz en aragonés que sea inclusivo de todas las variedades del aragonés. El director del Instituto de l'Aragonés, una de las ramas de la AAL, Juan Pablo Martínez, señala que este conjunto de datos «contribuirá a reforzar la presencia digital del aragonés en las tecnologías basadas en la interacción con máquinas y la Inteligencia Artificial (IA)».

El proyecto se incluye dentro de la iniciativa Common Voice, que busca crear un corpus abierto de grabaciones de voz en múltiples lenguas. Este corpus o conjunto de datos es necesario para desarrollar herramientas digitales como asistentes virtuales (tipo Siri), reconocedores de voz (para poder dictar o tomar notas automáticas de un discurso o reunión, o hacer subtítulos automáticos), sintetizadores de voz (para que las máquinas generen voz o lean textos) e incluso traductores que funcionan directamente desde la voz.

Este trabajo pretende mejorar la presencia del idioma en las redes. De hecho, según explican, aunque el aragonés cuenta con algunas herramientas tecnológicas, estas están ancladas en estructuras del pasado. En este momento, las herramientas más modernas, basadas en aprendizaje profundo (lo que comúnmente denominamos Inteligencia Artificial) requiere de la existencia de datos que puedan servir para entrenar estos modelos o adaptar al aragonés modelos que actualmente funcionan con otros idiomas.

La red social Bluesky también aprende a charrar

Esta no es la primera colaboración de la Academia Aragonesa de la Lengua (AAA) en el ámbito de las tecnologías para el aragonés. Durante el año pasado, la Academia colaboró con sendos equipos de la Universitat d’Alacant y la Universitat Oberta de Catalunya en la preparación de un conjunto de datos para entrenar y evaluar las prestaciones de traductores automáticos. Con estos datos se organizó una competición científica, para animar a equipos de investigación de todo el mundo a desarrollar traductores automáticos entre el castellano y tres lenguas ibéricas con pocos recursos (aragonés, aranés y asturiano). Los resultados y conclusiones de la competición fueron presentados en noviembre de 2024 en Miami, en el prestigioso congreso Empirical Methods in Natural Language Processing.

Además, en las últimas semanas, muchos usuarios de la red social X se están pasando a la red Bluesky. A muchos de los nuevos usuarios de esta red social de moda les ha sorprendido ver que el software permite seleccionar el aragonés como lengua de la aplicación, momento en que todos los menús y textos del software aparecen en aragonés.

En la primera fase del proyecto, desde noviembre hasta mitad de enero, se ha recopilado un corpus textual de 10.000 frases en todas las variedades de aragonés que posteriormente leerán los hablantes. Las frases que se introducen en la base de datos, una vez validadas por al menos dos usuarios, quedarán liberadas al finalizar el proyecto.

Por ello, según precisa Martínez, además de las frases que cualquier usuario pueda subir a la plataforma, se ha realizado un vaciado de algunas obras de autores fallecidos hace más de 80 años, como las comedias en aragonés cheso de Domingo Miral o los relatos en aragonés ribagorzano de Dámaso Carrera, así como de obras cedidas por autores contemporáneos como Elena Gusano, Marta Marín, Juan Carlos Marco, Feliciano González, José María Satué, Manuel Castán, así como de estudiosos como Chabier Lozano, Fernando Blas o Fernando Romanos. Otros autores también han manifestado interés y han dado permiso para la utilización de sus obras, y se incorporarán en futuras ampliaciones.

La segunda fase del proyecto se está llevando a cabo desde mitad de enero y aquí es necesaria la colaboración de los hablantes. Por eso la Academia requiere que participantes voluntarios, «cuantos más, mejor», se graben leyendo algunas de esas frases con un móvil, tablet u ordenador. «El objetivo es tener una colección de audios lo más amplia y variada posible, con participación de voluntarios de todos los rangos de edad, género, y también de todas las variedades del aragonés, también neohablantes», señala Martínez. Esto es importante para que las máquinas aprendan a entender todos los acentos y posibles pronunciaciones que se dan en aragonés, tanto entre quienes lo tienen como lengua materna como los que lo han aprendido de adultos.

Elena Gusano, escritora y hablante de aragonés ansotano, participando en el proyecto de recopilación de voces en aragonés

Elena Gusano, escritora y hablante de aragonés ansotano, participando en el proyecto de recopilación de voces en aragonés / AAL

Para ello, la Academia ha lanzado una campaña en redes sociales para buscar la colaboración de hablantes de todo el territorio. Esta campaña ha sido muy exitosa, pues en menos de un mes desde su inicio se han conseguido 12 horas de audio, grabadas por 36 hablantes (en la planificación que se había hecho en la academia, se esperaba llegar a las 10 horas a finales de marzo). Han participado hablantes de 18 a 84 años, y de todas las variedades del aragonés.

«Cada uno participa a su ritmo, y lo puede hacer en cualquier momento, siempre que tenga conexión a internet, hay quienes han participado leyendo una cincuentena de frases una sola vez, mientras que otros usuarios llevas más de mil frases leídas, o se conectan a leer frases casi todos los días», destaca. Martínez recuerda que en este momento, muchas tecnologías basadas en la llamada Inteligencia Artificial solo funcionan bien en las grandes lenguas y que grabando estas voces se está contribuyendo «a reforzar el futuro digital del aragonés».

La institución académica espera superar las 20 horas en el mes de marzo, lo cual permitirá publicar la primera versión del conjunto de datos ya en este primer semestre. No obstante, el proyecto seguirá indefinidamente abierto a la participación de cualquiera que quiera aportar su voz o aportar frases para ser leídas.

La implementación digital de los recursos en aragonés tendrá su impacto en la sociedad. En el curso actual, según los datos de la consejería de Educación de la DGA, 649 alumnos aprenden aragonés. Hasta 3.564 hacen lo propio con el catalán. Desde el Ejecutivo autonómico, pese a que solo se dedicaron 50.000 euros en los presupuestos de 2024, prorrogados en la actualidad, aseguran que existe «el compromiso de la protección de las lenguas y modalidades lingüísticas propias de Aragón, conforme a lo dispuesto en el Estatuto de Autonomía»

Tracking Pixel Contents