El Departamento de Educación, Cultura y Deporte del Gobierno de Aragón –a través de la Dirección General de Política Lingüística– ha desarrollado una iniciativa que permitirá obtener un reconocedor de voz del aragonés: ReconoiXe.

Este proyecto, que se enmarca en la continuación del programa Linguatec, se desarrolla en colaboración con Lo Congres Permanent de la Lenga Occitana, el Rolde de Estudios Aragoneses y la Fundación Elhuyar.

El reconocimiento de voz es la herramienta que analiza la voz y la transcribe en forma de texto escrito. Forma parte de las tecnologías de tratamiento de palabras que permiten a los humanos intercambiar oralmente con las máquinas, gracias a interfaces de voz.

El reconocimiento de voz es esencial para crear herramientas como subtitulado automático de vídeos, aplicaciones de dictado de asistentes personales inteligentes o de voz.

Las tecnologías del lenguaje (reconocimiento de voz, síntesis de voz, traducción automática o análisis semántico), son un tema vital para las lenguas minoritarias. Para interactuar en una sociedad cada vez más digital, es preciso disponer de los recursos y herramientas necesarios para que los hablantes lleven a cabo intercambios en su propio idioma a través de interfaces.

En esta línea de trabajo, desde la Dirección General de Política Lingüística se han impulsado varios programas a través del programa europeo Linguatec (traducción automática –TraduZe–, síntesis de voz y el diccionario on line bidireccional -Aragonario-), y se está trabajando en otras como una barra web descargable, un teclado predictivo, etc.

El reconocimiento de voz permite la transcripción de voz a texto, una tecnología que hoy está ampliamente distribuida en aplicaciones públicas en general, en particular por asistentes personales (Apple Siri, Google Home o Amazon Alexa son los más conocidos) y para el subtitulado automático de vídeos.

El reconocimiento de voz utiliza inteligencia artificial (redes neuronales) para transcribir automáticamente voz a texto escrito. Antes de poder hacer esto, debe entrenarse con oraciones de audio ya transcritas. Por lo tanto, necesita una gran cantidad de audio transcrito, es decir, una gran cantidad de texto con las correspondientes grabaciones de audio. También es necesario «alimentar la máquina” con grandes corpus de texto, y es entonces cuando puede aprender qué formas son frecuentes, qué palabra aparece a menudo junto a otra, etcétera. Para ello, es preciso desarrollar varios programas:

• Uno para escribir números, símbolos, abreviaturas, unidades de medida, etcétera, antes de enviar un mensaje de texto a la máquina.

• Una «abreviatura» que hace lo contrario, para hacer más legibles los textos ofrecidos a los usuarios.

• Un fonetizador para obtener la pronunciación del alfabeto fonético internacional de una palabra.

• Un programa para tener todas las palabras que corresponden a una pronunciación.

ReconoiXe es el nombre que toma el proyecto para el aragonés que consta de las siguientes fases:

Primera fase 2020: Definición de requisitos, especificaciones funcionales y constitución del corpus

Un primer paso, ya desarrollado, ha consistido en describir los requisitos técnicos, así como las especificaciones. funcionales. Desde un punto de vista técnico esta tecnología requiere una gran cantidad de datos. Solo un corpus rico, voluminoso y variado garantizará un resultado de calidad al final de la cadena. Para ello, se ha solicitado la colaboración de personas y asociaciones que han llevado a cabo locuciones de forma expresa para esta aplicación, o bien se han obtenido de grabaciones ya existentes. De este modo se han alcanzado más de 75 horas de grabación en las que están presentes todas las variedades dialectales, de forma que todas ellas puedan ser reconocidas y transcritas por las máquinas.

Esta primera fase se ha dedicado, pues, al trabajo de recolección, procesamiento (alineación de texto / sonido) y almacenamiento de audio y de corpus textual, en fase de elaboración, para lo que será de gran utilidad el traductor automático (TraduZe) recientemente puesto en producción.

Segunda fase 2021: Finalización y desarrollo tecnológico

Gran parte del proyecto se llevará a cabo durante esta segunda fase: completar la recolección de datos necesarios para llegar a una versión de desarrollo avanzado.

Tercera fase 2022: desarrollo final y validación

En la primera parte de esta última fase, todos los desarrollos tecnológicos del proyecto serán terminados. También se terminará la fase de construcción de transcriptores. Una vez integrados todos los componentes tecnológicos, serán sometidos a una serie de pruebas de evaluación intensiva.

Más de cien personas participan en la primera acción para obtener un reconocedor de voz del aragonés

Más noticias

En portada

Más artículos como este