Artículos de investigación en IA seleccionados diariamente con traducciones
Construir sistemas de IA encarnada que puedan seguir instrucciones lingüísticas arbitrarias en cualquier entorno 3D es un desafío clave para crear una IA general. Lograr este objetivo requiere aprender a fundamentar el lenguaje en la percepción y las acciones encarnadas, con el fin de realizar tareas complejas. El proyecto Scalable, Instructable, Multiworld Agent (SIMA) aborda esto entrenando agentes para seguir instrucciones de forma libre en una amplia gama de entornos virtuales 3D, incluyendo entornos de investigación cuidadosamente seleccionados, así como videojuegos comerciales de mundo abierto. Nuestro objetivo es desarrollar un agente instruible que pueda realizar cualquier tarea que un humano pueda hacer en cualquier entorno 3D simulado. Nuestro enfoque se centra en la generalidad impulsada por el lenguaje, imponiendo suposiciones mínimas. Nuestros agentes interactúan con los entornos en tiempo real utilizando una interfaz genérica y similar a la humana: las entradas son observaciones de imágenes e instrucciones lingüísticas, y las salidas son acciones de teclado y ratón. Este enfoque general es desafiante, pero permite a los agentes fundamentar el lenguaje en muchos entornos visualmente complejos y semánticamente ricos, al mismo tiempo que nos permite ejecutar fácilmente agentes en nuevos entornos. En este artículo describimos nuestra motivación y objetivo, el progreso inicial que hemos logrado y los prometedores resultados preliminares en varios entornos de investigación diversos y una variedad de videojuegos comerciales.
Los modelos generativos basados en audio para música han experimentado grandes avances recientemente, pero hasta ahora no han logrado producir pistas musicales completas con una estructura musical coherente. Demostramos que, al entrenar un modelo generativo con contextos temporales largos, es posible producir música de larga duración de hasta 4 minutos y 45 segundos. Nuestro modelo consiste en un transformador de difusión que opera sobre una representación latente continua altamente reducida (tasa latente de 21.5 Hz). Obtiene generaciones de vanguardia según métricas de calidad de audio y alineación con el prompt, y pruebas subjetivas revelan que produce música completa con una estructura coherente.