Hasta ahora, los mejores sistemas de lenguaje basados en inteligencia artificial (IA) se entrenan con textos que contienen en total billones de palabras, mientras que los seres humanos aprendemos a hablar escuchando tan sólo millones de palabras por año. Esta estrategia funciona para crear IAs con grandes capacidades de lenguaje, pero no dice casi nada sobre cómo aprendemos a hablar los humanos.
Bajo esta consideración, un equipo de investigación de la Universidad de Nueva York entrenó un sistema de IA “multimodal” (que aprende a asociar palabras y referentes visuales), a través de los ojos y oídos de un único niño, utilizando grabaciones hechas con una cámara que el niño tuvo desde los seis meses de edad hasta los 25 (aunque no de manera continua).
LEE TAMBIÉN: Alertan en EU sobre uso de inteligencia artificial por parte de narcos
Si bien el vídeo que utilizó la IA sólo capturó alrededor del 1% de las horas de vigilia del niño, hijo del líder de la investigación Wai Keen Vong, eso fue suficiente para que lograra un aprendizaje genuino del lenguaje, según los resultados del experimento publicados esta tarde en la revista Science.
Aprendizaje efectivo
La IA, llamada Visión Infantil para el Aprendizaje Contrastivo (CVCL por el inglés) se entrenó con fotogramas de video que contenían aproximadamente un cuarto de millón de palabras comunicadas (muchas de ellas repetidamente) vinculadas con de lo que el niño vio cuando se pronunciaron esas palabras e incluyeron las actividades normales de la infancia, como la comida y el juego.
“Una de las razones por las que (los modelos lenguajes) son tan poderosos es porque son entrenados con cantidades astronómicas de datos bajados de internet, es alrededor de un millón de veces más de lo que un ser humano recibe en toda su vida”.
Wai Keen Vong, líder de la investigación.
Entre los resultados, el equipo de investigación destaca que el aprendizaje de esta IA fue similar al de una red neuronal contrastante de imagen y texto, “pero entrenada con varios órdenes de magnitud más de datos (400 millones de pares de imagen y texto de la web)”.
Diferencias fundamentales
Si bien la CVCL pudo aprender palabras a partir de un entorno infantil, el equipo de investigación señala que los procesos son muy distintos, empezando porque los niños pequeños sólo pueden aprender del habla, mientras que la IA aprendió de expresiones transcritas, con lo que se perdió de señales útiles del habla como la entonación y el énfasis pero ganó precisión en las palabras.
Además, el equipo de investigación resalta que los niños aprenden de manera activa y encarnada, a diferencia de CVCL, que aprende de forma pasiva a partir de experiencias visuales y lingüísticas grabadas. También señalan que el aprendizaje a partir de fotogramas fijos independientes probablemente limita la capacidad de aprender verbos y otras palabras abstractas.
El equipo de investigación considera que, a pesar de las limitaciones, sus resultados pueden aportar elementos importantes para entender mejor los requerimientos del aprendizaje natural y para mejorar el aprendizaje automático.
ES DE INTERÉS:
El Papa reacciona a su imagen generada con Inteligencia Artificial