Papers Diários

Dimensionando Agentes Instrucionais em Múltiplos Mundos Simulados
Scaling Instructable Agents Across Many Simulated Worlds

Mar 13

BySIMA Team, Maria Abi Raad, Arun Ahuja, Catarina Barros, Frederic Besse, Andrew Bolt, Adrian Bolton, Bethanie Brownfield, Gavin Buttimore, Max Cant, Sarah Chakera, Stephanie C. Y. Chan, Jeff Clune, Adrian Collister, Vikki Copeman, Alex Cullum, Ishita Dasgupta, Dario de Cesare, Julia Di Trapani, Yani Donchev, Emma Dunleavy, Martin Engelcke, Ryan Faulkner, Frankie Garcia, Charles Gbadamosi, Zhitao Gong, Lucy Gonzales, Karol Gregor, Arne Olav Hallingstad, Tim Harley, Sam Haves, Felix Hill, Ed Hirst, Drew A. Hudson, Steph Hughes-Fitt, Danilo J. Rezende, Mimi Jasarevic, Laura Kampis, Rosemary Ke, Thomas Keck, Junkyung Kim, Oscar Knagg, Kavya Kopparapu, Andrew Lampinen, Shane Legg, Alexander Lerchner, Marjorie Limont, Yulan Liu, Maria Loks-Thompson, Joseph Marino, Kathryn Martin Cussons, Loic Matthey, Siobhan Mcloughlin, Piermaria Mendolicchio, Hamza Merzic, Anna Mitenkova, Alexandre Moufarek, Valeria Oliveira, Yanko Oliveira, Hannah Openshaw, Renke Pan, Aneesh Pappu, Alex Platonov, Ollie Purkiss, David Reichert, John Reid, Pierre Harvey Richemond, Tyson Roberts, Giles Ruscoe, Jaume Sanchez Elias, Tasha Sandars, Daniel P. Sawyer, Tim Scholtes, Guy Simmons, Daniel Slater, Hubert Soyer, Heiko Strathmann, Peter Stys, Allison C. Tam, Denis Teplyashin, Tayfun Terzi, Davide Vercelli, Bojan Vujatovic, Marcus Wainwright, Jane X. Wang, Zhengdong Wang, Daan Wierstra, Duncan Williams, Nathaniel Wong, Sarah York, Nick Young

Construir sistemas de IA incorporada que possam seguir instruções linguísticas arbitrárias em qualquer ambiente 3D é um desafio fundamental para a criação de IA geral. Alcançar esse objetivo requer aprender a fundamentar a linguagem na percepção e em ações incorporadas, a fim de realizar tarefas complexas. O projeto Scalable, Instructable, Multiworld Agent (SIMA) aborda isso treinando agentes para seguir instruções de forma livre em uma ampla gama de ambientes virtuais 3D, incluindo ambientes de pesquisa curados e videogames comerciais de mundo aberto. Nosso objetivo é desenvolver um agente instruível que possa realizar qualquer coisa que um humano possa fazer em qualquer ambiente 3D simulado. Nossa abordagem se concentra na generalidade orientada pela linguagem, impondo suposições mínimas. Nossos agentes interagem com os ambientes em tempo real usando uma interface genérica e semelhante à humana: as entradas são observações de imagem e instruções linguísticas, e as saídas são ações de teclado e mouse. Essa abordagem geral é desafiadora, mas permite que os agentes fundamentem a linguagem em muitos ambientes visualmente complexos e semanticamente ricos, além de nos permitir executar agentes prontamente em novos ambientes. Neste artigo, descrevemos nossa motivação e objetivo, o progresso inicial que alcançamos e resultados preliminares promissores em diversos ambientes de pesquisa e uma variedade de videogames comerciais.

Geração de música de longa duração com difusão latente
Long-form music generation with latent diffusion

Apr 16

ByZach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

Modelos generativos baseados em áudio para música têm apresentado avanços significativos recentemente, mas até agora não conseguiram produzir faixas musicais completas com uma estrutura musical coerente. Demonstramos que, ao treinar um modelo generativo com contextos temporais longos, é possível produzir música de longa duração de até 4m45s. Nosso modelo consiste em um transformer de difusão que opera em uma representação latente contínua altamente reduzida (taxa latente de 21,5Hz). Ele alcança gerações de última geração de acordo com métricas de qualidade de áudio e alinhamento com prompts, e testes subjetivos revelam que ele produz música de longa duração com estrutura coerente.

Dimensionando Agentes Instrucionais em Múltiplos Mundos Simulados

Scaling Instructable Agents Across Many Simulated Worlds

Mar 13

Geração de música de longa duração com difusão latente

Long-form music generation with latent diffusion

Apr 16

ByZach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

Dimensionando Agentes Instrucionais em Múltiplos Mundos SimuladosScaling Instructable Agents Across Many Simulated Worlds

Geração de música de longa duração com difusão latenteLong-form music generation with latent diffusion

Papers Diários

Dimensionando Agentes Instrucionais em Múltiplos Mundos SimuladosScaling Instructable Agents Across Many Simulated Worlds

Geração de música de longa duração com difusão latenteLong-form music generation with latent diffusion

Dimensionando Agentes Instrucionais em Múltiplos Mundos Simulados
Scaling Instructable Agents Across Many Simulated Worlds

Geração de música de longa duração com difusão latente
Long-form music generation with latent diffusion

Dimensionando Agentes Instrucionais em Múltiplos Mundos Simulados
Scaling Instructable Agents Across Many Simulated Worlds

Geração de música de longa duração com difusão latente
Long-form music generation with latent diffusion