ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Skalierung von instruierbaren Agenten über viele simulierte Welten hinweg
Scaling Instructable Agents Across Many Simulated Worlds

Mar 13
BySIMA Team, Maria Abi Raad, Arun Ahuja, Catarina Barros, Frederic Besse, Andrew Bolt, Adrian Bolton, Bethanie Brownfield, Gavin Buttimore, Max Cant, Sarah Chakera, Stephanie C. Y. Chan, Jeff Clune, Adrian Collister, Vikki Copeman, Alex Cullum, Ishita Dasgupta, Dario de Cesare, Julia Di Trapani, Yani Donchev, Emma Dunleavy, Martin Engelcke, Ryan Faulkner, Frankie Garcia, Charles Gbadamosi, Zhitao Gong, Lucy Gonzales, Karol Gregor, Arne Olav Hallingstad, Tim Harley, Sam Haves, Felix Hill, Ed Hirst, Drew A. Hudson, Steph Hughes-Fitt, Danilo J. Rezende, Mimi Jasarevic, Laura Kampis, Rosemary Ke, Thomas Keck, Junkyung Kim, Oscar Knagg, Kavya Kopparapu, Andrew Lampinen, Shane Legg, Alexander Lerchner, Marjorie Limont, Yulan Liu, Maria Loks-Thompson, Joseph Marino, Kathryn Martin Cussons, Loic Matthey, Siobhan Mcloughlin, Piermaria Mendolicchio, Hamza Merzic, Anna Mitenkova, Alexandre Moufarek, Valeria Oliveira, Yanko Oliveira, Hannah Openshaw, Renke Pan, Aneesh Pappu, Alex Platonov, Ollie Purkiss, David Reichert, John Reid, Pierre Harvey Richemond, Tyson Roberts, Giles Ruscoe, Jaume Sanchez Elias, Tasha Sandars, Daniel P. Sawyer, Tim Scholtes, Guy Simmons, Daniel Slater, Hubert Soyer, Heiko Strathmann, Peter Stys, Allison C. Tam, Denis Teplyashin, Tayfun Terzi, Davide Vercelli, Bojan Vujatovic, Marcus Wainwright, Jane X. Wang, Zhengdong Wang, Daan Wierstra, Duncan Williams, Nathaniel Wong, Sarah York, Nick Young
28
1

Der Aufbau von verkörperten KI-Systemen, die beliebige Sprachanweisungen in jeder 3D-Umgebung befolgen können, ist eine zentrale Herausforderung für die Schaffung einer allgemeinen KI. Die Erreichung dieses Ziels erfordert das Erlernen, Sprache in Wahrnehmung und verkörperte Handlungen zu verankern, um komplexe Aufgaben zu erledigen. Das Projekt "Skalierbarer, anweisbarer, Multiworld-Agent (SIMA)" befasst sich damit, Agenten darauf zu trainieren, freiform Sprachanweisungen in einer Vielzahl virtueller 3D-Umgebungen zu befolgen, einschließlich kuratierter Forschungsumgebungen sowie offener, kommerzieller Videospiele. Unser Ziel ist es, einen anweisbaren Agenten zu entwickeln, der alles erreichen kann, was ein Mensch in jeder simulierten 3D-Umgebung tun kann. Unser Ansatz konzentriert sich auf sprachgesteuerte Allgemeingültigkeit, unter minimalen Annahmen. Unsere Agenten interagieren in Echtzeit mit Umgebungen über eine generische, menschenähnliche Schnittstelle: Die Eingaben sind Bildbeobachtungen und Sprachanweisungen, und die Ausgaben sind Tastatur- und Mausaktionen. Dieser allgemeine Ansatz ist anspruchsvoll, ermöglicht es den Agenten jedoch, Sprache in vielen visuell komplexen und semantisch reichen Umgebungen zu verankern, während wir sie auch problemlos in neuen Umgebungen ausführen können. In diesem Papier beschreiben wir unsere Motivation und unser Ziel, den bisherigen Fortschritt und vielversprechende vorläufige Ergebnisse in mehreren verschiedenen Forschungsumgebungen sowie einer Vielzahl von kommerziellen Videospielen.

2

Langzeitmusikerzeugung mit latenter Diffusion
Long-form music generation with latent diffusion

Apr 16
ByZach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
27
1

Audio-basierte generative Modelle für Musik haben in letzter Zeit große Fortschritte gemacht, konnten jedoch bisher keine vollständigen Musikstücke mit kohärenter musikalischer Struktur erzeugen. Wir zeigen, dass es durch das Training eines generativen Modells auf langen zeitlichen Kontexten möglich ist, Musikstücke in voller Länge von bis zu 4m45s zu erzeugen. Unser Modell besteht aus einem Diffusions-Transformer, der auf einer stark abgetasteten kontinuierlichen latenten Repräsentation (latente Rate von 21,5 Hz) arbeitet. Es erzielt Spitzenleistungen gemäß Metriken zur Audioqualität und Prompt-Ausrichtung, und subjektive Tests zeigen, dass es Musik in voller Länge mit kohärenter Struktur erzeugt.

Apr 16
Apr 17
Apr 18