Google incluye quechua, guaraní y aimara en su traductor

de los que sus sistemas de IA pudieran aprender.

de los que sus sistemas de IA pudieran aprender.

Los gigantes tecnológicos de Estados Unidos no tienen un amplio historial de hacer que su tecnología de idiomas funcione bien fuera de los mercados más ricos, un problema que también les ha dificultado detectar desinformación peligrosa en sus plataformas. Hasta esta semana, el Traductor de Google servía para lenguas europeas como el frisio, el maltés, el islandés y el corso ”cada uno de ellos con menos de un millón de hablantes_, pero no para lenguas del este de ífrica como el oromo y el tigriña, que tienen millones de hablantes.

Las nuevas lenguas estarán disponibles esta semana. Aún no serán comprendidas por el asistente de voz de Google, lo que por ahora limitará el servicio a la traducción de texto a texto. La empresa dijo que está trabajando en el reconocimiento de voz y otras capacidades, tales como poder traducir letreros apuntándoles con la cámara.

Eso será importante para lenguas que en gran medida son orales como el quechua, en especial en el campo médico, porque muchos doctores y enfermeras peruanos que sólo hablan español laboran en zonas rurales y no logran entender a los pacientes que hablan quechua mayoritariamente, señaló Illaccanqui.

La próxima frontera o desafío es trabajar en torno al habla, dijo el peruano Arturo Oncevay, investigador de traducción automática de la Universidad de Edinburgo y cofundador de una coalición investigadora que busca mejorar la tecnología de las lenguas indígenas en el continente americano. Las lenguas originarias del continente americano son tradicionalmente orales.

En su anuncio, Google advirtió que la calidad de las traducciones en las lenguas incluidas recientemente todavía dista mucho de la de otras lenguas que ya tiene, tales como el inglés, el español y el alemán, y subrayó que los modelos cometerán errores y exhibirán sus propios sesgos. Pero la compañía sólo agrega lenguas si sus sistemas de IA cumplen cierto umbral de competencia, dijo Caswell.

Si hay un número significativo de casos en los que está muy equivocada, entonces no la incluiríamos", agregó. Incluso si el 90% de las traducciones son perfectas, pero 10% carecen de sentido, eso es un poco excesivo para nosotros.

Google dijo que sus productos ya incluyen 133 lenguas. Las 24 más recientes son el mayor lote incluido desde que la compañía incorporó 16 en 2010. Lo que hizo posible la expansión es lo que Google llama un modelo de traducción automática de intento cero o recurso cero, que aprende a traducir otra lengua sin haber visto un ejemplo de ella.

Meta, la compañía matriz de Instagram y Facebook, introdujo el año pasado un concepto similar llamado Universal Speech Translator (Traductor Universal de Voz).

El modelo de Google funciona mediante el adiestramiento de un solo modelo neural gigantesco de IA en unas 100 lenguas distintas de las que hay abundantes datos, y después aplica lo aprendido a cientos de otras lenguas que desconoce, dijo Caswell.

Imaginen que ustedes son unos grandes políglotas y después simplemente comienzan a leer novelas en otro idioma; pueden empezar a reconstruir lo que podría significar con base en sus conocimientos de idiomas en general, señaló.

Dijo que el nuevo grupo incluye desde lenguas más pequeñas como la mizo, hablada en el noreste de la India por unas 800.000 personas, hasta lenguas que se hablan más como el lingala, utilizado por unos 45 millones de personas en el centro de ífrica.

Hace más de 15 años, en 2006, Microsoft recibió algunos elogios en Sudamérica por un software que traducía menús y comandos familiares de la empresa a quechua. Pero eso fue antes de la actual ola de avances de IA en las traducciones en tiempo real.

Américo Mendoza Mori, investigador de lenguas de la Universidad de Harvard que habla quechua, dijo que el hecho de que Google haya prestado atención a esta lengua le da una visibilidad necesaria en lugares como Perú, donde los hablantes de quechua carecen todavía de muchos servicios públicos. La supervivencia de muchas de estas lenguas dependerá de su uso en contextos digitales, afirmó.

Otro lingí¼ista, Roberto Zariquey, se dijo escéptico de que Google pueda crear una herramienta efectiva de revitalización de lenguas para el quechua, el aimara o el guaraní sin la estrecha participación de grupos comunitarios de la región.

Las lenguas están muy vinculadas a las vidas, culturas, grupos étnicos y organizaciones políticas, dijo Zariquiey, un linguista de la Pontificia Universidad Católica del Perú. Esto debería ser tomado en cuenta, afirmó.

”-

Las nuevas lenguas incluidas son asamés, aimara, bambara, bhoshpuri, dhivehi, dogrí, ewé, guarani, ilocano, konkaní, criollo sierraleonés, lingala, luganda, maithili, meiteilon (manipurí), mizo, oromo, quechua, sánscrito, sepedi, kurdo sorani, tigriña, tsonga y twi.

”-

O™Brien informó desde Providence, Rhode Island.