MarIA la inteligencia artificial experta en lengua española, gratis para todos

Fue creada con el superordenador MareNostrum.

MarIA la inteligencia artificial experta en lengua española, gratis para todos

Por: Mendoza Post

La lengua española es uno de los idiomas más complejos y completos de todos. Ahora, ya tiene un modelo de inteligencia artificial que es experta en ello y pronto se aplicará en otras lenguas similares como el catalán, gallego, euskera, portugués y español de Hispanoamérica.

El proyecto surgió de la unión del Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC), junto con la Biblioteca Nacional de España y entre ellos presentaron MarIA, la inteligencia artificial de la lengua española más avanzada que existe.

Entre sus virtudes se destaca la capacidad de comprender y escribir en español. También puede entender, no solo conceptos abstractos, sino el contexto en el que sucede.

Esta inteligencia artificial ha sido entrenada con 59.000 GB de textos procesados durante casi 7 millones de horas de cómputo por el superordenador MareMostrum del BSC, uno de los más potentes de Europa.

Al tratarse de un proyecto llevado a cabo por organismos públicos españoles, MarIA está disponible en forma de código abierto para todo aquel que quiera utilizarlo. Se puede descargar en GitHub.

Ver: Los signos más afortunados de la jornada según el Zodíaco

Sus posibles aplicaciones van desde los correctores o predictores del lenguaje, hasta las aplicaciones de resúmenes automáticos, chatbots, búsquedas inteligentes, motores de traducción y subtitulación automática, entre otros.

¿Cómo funciona MarIA?

El primer modelo de IA masivo de la lengua española es en realidad un "conjunto de modelos del lenguaje" o, como lo explican sus desarrolladores en un comunicado, "redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua, su léxico y sus mecanismos para expresar el significado y escribir a nivel experto". Son redes que consiguen trabajar con interdependencias cortas y largas y son capaces de entender, no solo conceptos abstractos, sino también el contexto de los mismos.

Según publicó computerworld.es, El primer paso para crear un modelo de la lengua es elaborar un corpus de palabras y frases que será la base sobre la que se entrenará el sistema. Como explican los responsables del proyecto, para crear el corpus de MarIA, se utilizó el equivalente a 59.000 gigabytes del archivo web de la Biblioteca Nacional. Posteriormente, estos archivos se procesaron para eliminar aquello que no fuera texto bien formado, y se guardaron solamente los textos bien formados en la lengua española. Para este cribado y su posterior compilación fueron necesarias 6.910.000 horas de procesadores del superordenador MareNostrum y los resultados fueron 201.080.084 documentos limpios que ocupan un total de 570 gigabytes de texto limpio y sin duplicidades.

  Ver: Ahorra tiempo y dinero: el ABC del color

Una vez creado el corpus, los investigadores del BSC utilizaron una tecnología de redes neuronales (basada en la arquitectura Transformer), que ha demostrado buenos resultados en el inglés y que se entrenó para aprender a utilizar la lengua. Para realizar este entrenamiento se necesitaron 184.000 horas de procesador y más de 18.000 horas de GPU.

Esta nota habla de: