Dagelijkse Papers

Schaalbare instructiegevoelige agents in meerdere gesimuleerde werelden
Scaling Instructable Agents Across Many Simulated Worlds

Mar 13

BySIMA Team, Maria Abi Raad, Arun Ahuja, Catarina Barros, Frederic Besse, Andrew Bolt, Adrian Bolton, Bethanie Brownfield, Gavin Buttimore, Max Cant, Sarah Chakera, Stephanie C. Y. Chan, Jeff Clune, Adrian Collister, Vikki Copeman, Alex Cullum, Ishita Dasgupta, Dario de Cesare, Julia Di Trapani, Yani Donchev, Emma Dunleavy, Martin Engelcke, Ryan Faulkner, Frankie Garcia, Charles Gbadamosi, Zhitao Gong, Lucy Gonzales, Karol Gregor, Arne Olav Hallingstad, Tim Harley, Sam Haves, Felix Hill, Ed Hirst, Drew A. Hudson, Steph Hughes-Fitt, Danilo J. Rezende, Mimi Jasarevic, Laura Kampis, Rosemary Ke, Thomas Keck, Junkyung Kim, Oscar Knagg, Kavya Kopparapu, Andrew Lampinen, Shane Legg, Alexander Lerchner, Marjorie Limont, Yulan Liu, Maria Loks-Thompson, Joseph Marino, Kathryn Martin Cussons, Loic Matthey, Siobhan Mcloughlin, Piermaria Mendolicchio, Hamza Merzic, Anna Mitenkova, Alexandre Moufarek, Valeria Oliveira, Yanko Oliveira, Hannah Openshaw, Renke Pan, Aneesh Pappu, Alex Platonov, Ollie Purkiss, David Reichert, John Reid, Pierre Harvey Richemond, Tyson Roberts, Giles Ruscoe, Jaume Sanchez Elias, Tasha Sandars, Daniel P. Sawyer, Tim Scholtes, Guy Simmons, Daniel Slater, Hubert Soyer, Heiko Strathmann, Peter Stys, Allison C. Tam, Denis Teplyashin, Tayfun Terzi, Davide Vercelli, Bojan Vujatovic, Marcus Wainwright, Jane X. Wang, Zhengdong Wang, Daan Wierstra, Duncan Williams, Nathaniel Wong, Sarah York, Nick Young

Het ontwikkelen van belichaamde AI-systemen die willekeurige taal-instructies kunnen volgen in elke 3D-omgeving is een belangrijke uitdaging voor het creëren van algemene AI. Het bereiken van dit doel vereist het leren verankeren van taal in perceptie en belichaamde acties, om complexe taken te kunnen uitvoeren. Het Scalable, Instructable, Multiworld Agent (SIMA)-project pakt dit aan door agents te trainen om vrije-vorm instructies te volgen in een diverse reeks virtuele 3D-omgevingen, waaronder gecureerde onderzoeksomgevingen en open-ended commerciële videogames. Ons doel is het ontwikkelen van een instructeerbare agent die alles kan doen wat een mens kan doen in elke gesimuleerde 3D-omgeving. Onze aanpak richt zich op taalgedreven algemeenheid met minimale aannames. Onze agents interacteren in real-time met omgevingen via een generieke, mensachtige interface: de invoer bestaat uit beeldobservaties en taal-instructies, en de uitvoer zijn toetsenbord- en muisacties. Deze algemene aanpak is uitdagend, maar stelt agents in staat om taal te verankeren in vele visueel complexe en semantisch rijke omgevingen, terwijl het ons ook in staat stelt om agents gemakkelijk in nieuwe omgevingen te laten functioneren. In dit artikel beschrijven we onze motivatie en doelstelling, de initiële voortgang die we hebben geboekt, en veelbelovende voorlopige resultaten in diverse onderzoeksomgevingen en een verscheidenheid aan commerciële videogames.

Lange muziekgeneratie met latente diffusie
Long-form music generation with latent diffusion

Apr 16

ByZach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

Audio-gebaseerde generatieve modellen voor muziek hebben recentelijk grote vooruitgang geboekt, maar zijn tot nu toe niet in staat geweest volledige muziektracks met een samenhangende muzikale structuur te produceren. We tonen aan dat het mogelijk is om langere muziekstukken van maximaal 4 minuten en 45 seconden te genereren door een generatief model te trainen op lange temporele contexten. Ons model bestaat uit een diffusie-transformer die werkt op een sterk gedownsamplede continue latente representatie (latente frequentie van 21,5 Hz). Het behaalt state-of-the-art resultaten volgens metrieken voor audiokwaliteit en promptafstemming, en subjectieve tests laten zien dat het volledige muziekstukken met een samenhangende structuur produceert.

Schaalbare instructiegevoelige agents in meerdere gesimuleerde werelden

Scaling Instructable Agents Across Many Simulated Worlds

Mar 13

Lange muziekgeneratie met latente diffusie

Long-form music generation with latent diffusion

Apr 16

ByZach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

Schaalbare instructiegevoelige agents in meerdere gesimuleerde wereldenScaling Instructable Agents Across Many Simulated Worlds

Lange muziekgeneratie met latente diffusieLong-form music generation with latent diffusion

Dagelijkse Papers

Schaalbare instructiegevoelige agents in meerdere gesimuleerde wereldenScaling Instructable Agents Across Many Simulated Worlds

Lange muziekgeneratie met latente diffusieLong-form music generation with latent diffusion

Schaalbare instructiegevoelige agents in meerdere gesimuleerde werelden
Scaling Instructable Agents Across Many Simulated Worlds

Lange muziekgeneratie met latente diffusie
Long-form music generation with latent diffusion

Schaalbare instructiegevoelige agents in meerdere gesimuleerde werelden
Scaling Instructable Agents Across Many Simulated Worlds

Lange muziekgeneratie met latente diffusie
Long-form music generation with latent diffusion