La Inteligencia Artificial ahora responde preguntas a través de imágenes y textos

por | 10 Oct, 2019 | Entrevista | 0 Comentarios

Los investigadores de Microsoft han mostrado un nuevo sistema de inteligencia artificial (IA), que a través del entrenamiento con pares de imagen-texto pueden imitar la forma en la que los humanos comprenden su entorno. Microsoft presenta este nuevo sistema a través del documento Capacitación previa unificada en lenguaje y visión para subtítulos de imágenes y […]

Los investigadores de Microsoft han mostrado un nuevo sistema de inteligencia artificial (IA), que a través del entrenamiento con pares de imagen-texto pueden imitar la forma en la que los humanos comprenden su entorno.

Microsoft presenta este nuevo sistema a través del documento Capacitación previa unificada en lenguaje y visión para subtítulos de imágenes y VQA, un sistema unificado que hace las veces de un codificador y decodificador de modelo único.

De acuerdo con el blog de Microsoft, la compañía de Redmond ha logrado construir un sistema capaz de analizar dos tareas dispares, como los subtítulos de imágenes y las respuestas visuales a preguntas (VQA).

A través de un sistema codificador-decodificador de un solo modelo Vision-Language Pre-training (VLP), que será capaz de generar descripciones de imágenes y responder a preguntas en lenguaje natural sobre el entorno al igual que los humanos.

Según los investigadores, este sistema fue pre-entrenado utilizando tres millones de pares de imagen-texto, una ventaja con la que no han contado estudios anteriores a este modelo VLP, que se vale de una red de transformadores multicapa compartida para cada codificación y decodificación.

VLP además incorpora “máscaras especiales” que permiten que un solo modelo realice tareas de generación y comprensión en una determinada escena, y posee una arquitectura complementaria “para la predicción bidireccional y secuencia a secuencia”, que no poseen los modelos anteriores.

Finalmente, los investigadores señalan que durante la investigación VLP no solo fue capaz de ingresar detalles adicionales al generar subtítulos, sino que además también proporcionó respuestas a preguntas desafiantes de forma correcta donde otros modelos han fallado.

Factores que le permitirán centrar bases para futuros estudios, y que sin lugar a dudas podrán contribuir de forma significativa en el proceso de la paridad humana.

0 comentarios

Enviar un comentario




Otras categorías

Suscríbete a nuestro boletín

Suscríbete a nuestro boletín

Te enviaremos las noticias mas importantes del mundo IT

Muchas Gracias!

Pin It on Pinterest

Share This