Una de las imágenes creadas por IA y que se utilizan en la campaña. Cenid

Se buscan voluntarios para enseñar valenciano a las aplicaciones con IA

Investigadores de la UA lanzan la plataforma en la que se pueden grabar cinco frases y ayudar a generar un corpus en lengua valenciana

Ana Jover

Alicante

Miércoles, 8 de noviembre 2023, 07:29

Una construcción vanguardista de ocho plantas es la imagen central de un cartel en el que se puede leer: «la I.A. ha dissenyat aquest edifici, però encara no t'entèn si li parlas en valencià». Bajo el paraguas de Cenid, el Grupo de Procesamiento ... del Lenguaje y Sistemas de Información de la Universidad de Alicante es el encargado de desarrollar una parte del proyecto NEL (Nueva Economía de la Lengua). Los avances de las investigaciones se compartirán este jueves en Alicante con motivo de la celebración de Ilenia, la reunión nacional de Vives.

Publicidad

Durante tres años el Consorcio Barcelona Supercomputing-Centro Nacional de Supercomputing coordinará cuatro programas en España para generar el corpus necesario para generar recursos multilingües que incluyan todas las lenguas cooficiales en el país. Y serán los investigadores alicantinos, los que se están encargando de recoger las muestras sonoras del proyecto.

El campo de voluntariado servirá para formar parte de la historia de la inteligencia artificial en valenciano y, según explica el director de la iniciativa y catedrático de la UA, Manuel Palomar, «cuanto más recursos se consigan mejor». El investigador y ex rector de la universidad alicantina explica que es complicado dar una cifra. «Estamos hablando de 17 billones de parámetros del lenguaje en el desarrollo de la Inteligencia Artificial», apunta. Este dato signfica que las necesidades son inmensas en un mundo donde hasta el castellano lo tiene complicado en este sentido «para entrenar».

Pero el mundo no se hizo en dos días y a las futuras aplicaciones en valenciano tampoco se les va a enseñar en ese tiempo. Así que bajo las siglas del programa NEL Vives se puede llegar a la web, donde «piano, piano» se irá recopilando esa gran base de audios. En concreto, los investigadores ir frase por frase.

El proceso es sencillo y hay dos maneras de aportar. La primera es de manera anónima y sencillamente aportarás tu voz. En la segunda, que es la que se marca como recomendable, abres un perfil y marcas puedes fijar el acento de tu valenciano por tu zona geográfica de aprendizaje en la Comunitat Valenciana. Desde el programa, salen cinco frases para leerlas.

Publicidad

El papel de la UA es precisamente recoger las diferencias de acentos que hay con Cataluña y dentro de las propias provincias valencianas. NEL es el plan de tecnologías multilingüe que subvenciona Red.es (Gobierno de España) dentro del PERTE (Proyecto Estratégico para la Recuperación y Transformación Económica).

Entre sus objetivos está la confección de la infraestructura necesaria para que la «inclusión de las lenguas en las aplicaciones con IA sea atractiva y viable tanto para las grandes compañías como para la industria nacional» y su objetivo principal es la «creación de un cuerpo masivo (en formato de texto y voz) en valenciano.

Publicidad

¿Asistentes para el turismo?

Como explican desde el proyecto, este proceso tiene varios objetivos. Uno de los principales es desarrollar las aplicaciones basadas en TL, que incluye los asistentes de voz, traductores automáticos y agentes conversacionales, entre otros).

Así, a lo largo de los tres años que dura la investigación, el grupo de la UA pondrá también su sello en dos sectores estratégicos para la Comunitat Valenciana. Se trata del turismo y las producciones audiovisuales. Manuel Palomar explica que «a partir de modelos generales, aplicaremos modelos específicos para estas áreas. Lo que llamamos un reentrenamiento. Será un trabajo a desarrollar el último año de la investigación» con casos para su uso.

Publicidad

La propuesta encaja con todo los proyectos de asistencia virtual que se están implantando y que se pueden ver especialmente en hoteles o empresas ligadas al sector turístico.

No obstante, los investigadores contarán con importantes y prolijas fuentes para aprender. En los recursos están desde los boletines oficiales como el Diario Oficial de la Generalitat Valenciana. Sólo en este caso, hablamos de un corpus que consta de 21 ficheros que incluyen los textos desde el año 1998 hasta el 2023, es decir, 283.979.280 palabras y un peso de 1.65GB. Y así ocurrirá con el Boletín Oficial de la UA o el de Les Corts Valencianes.

Este contenido es exclusivo para suscriptores

Disfruta de acceso ilimitado y ventajas exclusivas

Publicidad