Escalando Agentes Instruibles a Través de Múltiples Mundos SimuladosScaling Instructable Agents Across Many Simulated Worlds
Construir sistemas de IA encarnada que puedan seguir instrucciones lingüísticas arbitrarias en cualquier entorno 3D es un desafío clave para crear una IA general. Lograr este objetivo requiere aprender a fundamentar el lenguaje en la percepción y las acciones encarnadas, con el fin de realizar tareas complejas. El proyecto Scalable, Instructable, Multiworld Agent (SIMA) aborda esto entrenando agentes para seguir instrucciones de forma libre en una amplia gama de entornos virtuales 3D, incluyendo entornos de investigación cuidadosamente seleccionados, así como videojuegos comerciales de mundo abierto. Nuestro objetivo es desarrollar un agente instruible que pueda realizar cualquier tarea que un humano pueda hacer en cualquier entorno 3D simulado. Nuestro enfoque se centra en la generalidad impulsada por el lenguaje, imponiendo suposiciones mínimas. Nuestros agentes interactúan con los entornos en tiempo real utilizando una interfaz genérica y similar a la humana: las entradas son observaciones de imágenes e instrucciones lingüísticas, y las salidas son acciones de teclado y ratón. Este enfoque general es desafiante, pero permite a los agentes fundamentar el lenguaje en muchos entornos visualmente complejos y semánticamente ricos, al mismo tiempo que nos permite ejecutar fácilmente agentes en nuevos entornos. En este artículo describimos nuestra motivación y objetivo, el progreso inicial que hemos logrado y los prometedores resultados preliminares en varios entornos de investigación diversos y una variedad de videojuegos comerciales.