Paper Giornalieri

Scalabilità di Agenti Istruibili Attraverso Molti Mondi Simulati
Scaling Instructable Agents Across Many Simulated Worlds

Mar 13

BySIMA Team, Maria Abi Raad, Arun Ahuja, Catarina Barros, Frederic Besse, Andrew Bolt, Adrian Bolton, Bethanie Brownfield, Gavin Buttimore, Max Cant, Sarah Chakera, Stephanie C. Y. Chan, Jeff Clune, Adrian Collister, Vikki Copeman, Alex Cullum, Ishita Dasgupta, Dario de Cesare, Julia Di Trapani, Yani Donchev, Emma Dunleavy, Martin Engelcke, Ryan Faulkner, Frankie Garcia, Charles Gbadamosi, Zhitao Gong, Lucy Gonzales, Karol Gregor, Arne Olav Hallingstad, Tim Harley, Sam Haves, Felix Hill, Ed Hirst, Drew A. Hudson, Steph Hughes-Fitt, Danilo J. Rezende, Mimi Jasarevic, Laura Kampis, Rosemary Ke, Thomas Keck, Junkyung Kim, Oscar Knagg, Kavya Kopparapu, Andrew Lampinen, Shane Legg, Alexander Lerchner, Marjorie Limont, Yulan Liu, Maria Loks-Thompson, Joseph Marino, Kathryn Martin Cussons, Loic Matthey, Siobhan Mcloughlin, Piermaria Mendolicchio, Hamza Merzic, Anna Mitenkova, Alexandre Moufarek, Valeria Oliveira, Yanko Oliveira, Hannah Openshaw, Renke Pan, Aneesh Pappu, Alex Platonov, Ollie Purkiss, David Reichert, John Reid, Pierre Harvey Richemond, Tyson Roberts, Giles Ruscoe, Jaume Sanchez Elias, Tasha Sandars, Daniel P. Sawyer, Tim Scholtes, Guy Simmons, Daniel Slater, Hubert Soyer, Heiko Strathmann, Peter Stys, Allison C. Tam, Denis Teplyashin, Tayfun Terzi, Davide Vercelli, Bojan Vujatovic, Marcus Wainwright, Jane X. Wang, Zhengdong Wang, Daan Wierstra, Duncan Williams, Nathaniel Wong, Sarah York, Nick Young

Costruire sistemi di intelligenza artificiale incarnata in grado di seguire istruzioni linguistiche arbitrarie in qualsiasi ambiente 3D rappresenta una sfida fondamentale per la creazione di un'IA generale. Raggiungere questo obiettivo richiede imparare a fondare il linguaggio nella percezione e nelle azioni incarnate, al fine di portare a termine compiti complessi. Il progetto Scalable, Instructable, Multiworld Agent (SIMA) affronta questa sfida addestrando agenti a seguire istruzioni libere in una vasta gamma di ambienti virtuali 3D, inclusi ambienti di ricerca curati e videogiochi commerciali aperti. Il nostro obiettivo è sviluppare un agente istruibile in grado di realizzare qualsiasi cosa un essere umano possa fare in qualsiasi ambiente 3D simulato. Il nostro approccio si concentra sulla generalità guidata dal linguaggio, imponendo il minor numero possibile di assunzioni. I nostri agenti interagiscono con gli ambienti in tempo reale utilizzando un'interfaccia generica e simile a quella umana: gli input sono osservazioni visive e istruzioni linguistiche, mentre gli output sono azioni da tastiera e mouse. Questo approccio generale è impegnativo, ma consente agli agenti di fondare il linguaggio in molti ambienti visivamente complessi e semanticamente ricchi, permettendoci anche di eseguire facilmente gli agenti in nuovi ambienti. In questo articolo descriviamo la nostra motivazione e il nostro obiettivo, i progressi iniziali ottenuti e i promettenti risultati preliminari su diversi ambienti di ricerca e una varietà di videogiochi commerciali.

Generazione musicale di lunga durata con diffusione latente
Long-form music generation with latent diffusion

Apr 16

ByZach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

I modelli generativi basati su audio per la musica hanno compiuto grandi progressi di recente, ma finora non sono riusciti a produrre brani musicali completi con una struttura musicale coerente. Dimostriamo che addestrando un modello generativo su contesti temporali lunghi è possibile produrre musica di lunga durata fino a 4 minuti e 45 secondi. Il nostro modello consiste in un diffusion-transformer che opera su una rappresentazione latente continua altamente sottocampionata (frequenza latente di 21,5 Hz). Ottiene generazioni all'avanguardia secondo metriche sulla qualità audio e l'allineamento al prompt, e test soggettivi rivelano che produce musica completa con una struttura coerente.

Scalabilità di Agenti Istruibili Attraverso Molti Mondi Simulati

Scaling Instructable Agents Across Many Simulated Worlds

Mar 13

Generazione musicale di lunga durata con diffusione latente

Long-form music generation with latent diffusion

Apr 16

ByZach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

Scalabilità di Agenti Istruibili Attraverso Molti Mondi SimulatiScaling Instructable Agents Across Many Simulated Worlds

Generazione musicale di lunga durata con diffusione latenteLong-form music generation with latent diffusion

Paper Giornalieri

Scalabilità di Agenti Istruibili Attraverso Molti Mondi SimulatiScaling Instructable Agents Across Many Simulated Worlds

Generazione musicale di lunga durata con diffusione latenteLong-form music generation with latent diffusion

Scalabilità di Agenti Istruibili Attraverso Molti Mondi Simulati
Scaling Instructable Agents Across Many Simulated Worlds

Generazione musicale di lunga durata con diffusione latente
Long-form music generation with latent diffusion

Scalabilità di Agenti Istruibili Attraverso Molti Mondi Simulati
Scaling Instructable Agents Across Many Simulated Worlds

Generazione musicale di lunga durata con diffusione latente
Long-form music generation with latent diffusion