Papers Diarios

Escalando Agentes Instruibles a Través de Múltiples Mundos Simulados
Scaling Instructable Agents Across Many Simulated Worlds

Mar 13

BySIMA Team, Maria Abi Raad, Arun Ahuja, Catarina Barros, Frederic Besse, Andrew Bolt, Adrian Bolton, Bethanie Brownfield, Gavin Buttimore, Max Cant, Sarah Chakera, Stephanie C. Y. Chan, Jeff Clune, Adrian Collister, Vikki Copeman, Alex Cullum, Ishita Dasgupta, Dario de Cesare, Julia Di Trapani, Yani Donchev, Emma Dunleavy, Martin Engelcke, Ryan Faulkner, Frankie Garcia, Charles Gbadamosi, Zhitao Gong, Lucy Gonzales, Karol Gregor, Arne Olav Hallingstad, Tim Harley, Sam Haves, Felix Hill, Ed Hirst, Drew A. Hudson, Steph Hughes-Fitt, Danilo J. Rezende, Mimi Jasarevic, Laura Kampis, Rosemary Ke, Thomas Keck, Junkyung Kim, Oscar Knagg, Kavya Kopparapu, Andrew Lampinen, Shane Legg, Alexander Lerchner, Marjorie Limont, Yulan Liu, Maria Loks-Thompson, Joseph Marino, Kathryn Martin Cussons, Loic Matthey, Siobhan Mcloughlin, Piermaria Mendolicchio, Hamza Merzic, Anna Mitenkova, Alexandre Moufarek, Valeria Oliveira, Yanko Oliveira, Hannah Openshaw, Renke Pan, Aneesh Pappu, Alex Platonov, Ollie Purkiss, David Reichert, John Reid, Pierre Harvey Richemond, Tyson Roberts, Giles Ruscoe, Jaume Sanchez Elias, Tasha Sandars, Daniel P. Sawyer, Tim Scholtes, Guy Simmons, Daniel Slater, Hubert Soyer, Heiko Strathmann, Peter Stys, Allison C. Tam, Denis Teplyashin, Tayfun Terzi, Davide Vercelli, Bojan Vujatovic, Marcus Wainwright, Jane X. Wang, Zhengdong Wang, Daan Wierstra, Duncan Williams, Nathaniel Wong, Sarah York, Nick Young

Construir sistemas de IA encarnada que puedan seguir instrucciones lingüísticas arbitrarias en cualquier entorno 3D es un desafío clave para crear una IA general. Lograr este objetivo requiere aprender a fundamentar el lenguaje en la percepción y las acciones encarnadas, con el fin de realizar tareas complejas. El proyecto Scalable, Instructable, Multiworld Agent (SIMA) aborda esto entrenando agentes para seguir instrucciones de forma libre en una amplia gama de entornos virtuales 3D, incluyendo entornos de investigación cuidadosamente seleccionados, así como videojuegos comerciales de mundo abierto. Nuestro objetivo es desarrollar un agente instruible que pueda realizar cualquier tarea que un humano pueda hacer en cualquier entorno 3D simulado. Nuestro enfoque se centra en la generalidad impulsada por el lenguaje, imponiendo suposiciones mínimas. Nuestros agentes interactúan con los entornos en tiempo real utilizando una interfaz genérica y similar a la humana: las entradas son observaciones de imágenes e instrucciones lingüísticas, y las salidas son acciones de teclado y ratón. Este enfoque general es desafiante, pero permite a los agentes fundamentar el lenguaje en muchos entornos visualmente complejos y semánticamente ricos, al mismo tiempo que nos permite ejecutar fácilmente agentes en nuevos entornos. En este artículo describimos nuestra motivación y objetivo, el progreso inicial que hemos logrado y los prometedores resultados preliminares en varios entornos de investigación diversos y una variedad de videojuegos comerciales.

Generación de música de larga duración con difusión latente
Long-form music generation with latent diffusion

Apr 16

ByZach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

Los modelos generativos basados en audio para música han experimentado grandes avances recientemente, pero hasta ahora no han logrado producir pistas musicales completas con una estructura musical coherente. Demostramos que, al entrenar un modelo generativo con contextos temporales largos, es posible producir música de larga duración de hasta 4 minutos y 45 segundos. Nuestro modelo consiste en un transformador de difusión que opera sobre una representación latente continua altamente reducida (tasa latente de 21.5 Hz). Obtiene generaciones de vanguardia según métricas de calidad de audio y alineación con el prompt, y pruebas subjetivas revelan que produce música completa con una estructura coherente.

Escalando Agentes Instruibles a Través de Múltiples Mundos Simulados

Scaling Instructable Agents Across Many Simulated Worlds

Mar 13

Generación de música de larga duración con difusión latente

Long-form music generation with latent diffusion

Apr 16

ByZach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

Escalando Agentes Instruibles a Través de Múltiples Mundos SimuladosScaling Instructable Agents Across Many Simulated Worlds

Generación de música de larga duración con difusión latenteLong-form music generation with latent diffusion

Papers Diarios

Escalando Agentes Instruibles a Través de Múltiples Mundos SimuladosScaling Instructable Agents Across Many Simulated Worlds

Generación de música de larga duración con difusión latenteLong-form music generation with latent diffusion

Escalando Agentes Instruibles a Través de Múltiples Mundos Simulados
Scaling Instructable Agents Across Many Simulated Worlds

Generación de música de larga duración con difusión latente
Long-form music generation with latent diffusion

Escalando Agentes Instruibles a Través de Múltiples Mundos Simulados
Scaling Instructable Agents Across Many Simulated Worlds

Generación de música de larga duración con difusión latente
Long-form music generation with latent diffusion