ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Mise à l'échelle d'agents instructables à travers de nombreux mondes simulés
Scaling Instructable Agents Across Many Simulated Worlds

Mar 13
BySIMA Team, Maria Abi Raad, Arun Ahuja, Catarina Barros, Frederic Besse, Andrew Bolt, Adrian Bolton, Bethanie Brownfield, Gavin Buttimore, Max Cant, Sarah Chakera, Stephanie C. Y. Chan, Jeff Clune, Adrian Collister, Vikki Copeman, Alex Cullum, Ishita Dasgupta, Dario de Cesare, Julia Di Trapani, Yani Donchev, Emma Dunleavy, Martin Engelcke, Ryan Faulkner, Frankie Garcia, Charles Gbadamosi, Zhitao Gong, Lucy Gonzales, Karol Gregor, Arne Olav Hallingstad, Tim Harley, Sam Haves, Felix Hill, Ed Hirst, Drew A. Hudson, Steph Hughes-Fitt, Danilo J. Rezende, Mimi Jasarevic, Laura Kampis, Rosemary Ke, Thomas Keck, Junkyung Kim, Oscar Knagg, Kavya Kopparapu, Andrew Lampinen, Shane Legg, Alexander Lerchner, Marjorie Limont, Yulan Liu, Maria Loks-Thompson, Joseph Marino, Kathryn Martin Cussons, Loic Matthey, Siobhan Mcloughlin, Piermaria Mendolicchio, Hamza Merzic, Anna Mitenkova, Alexandre Moufarek, Valeria Oliveira, Yanko Oliveira, Hannah Openshaw, Renke Pan, Aneesh Pappu, Alex Platonov, Ollie Purkiss, David Reichert, John Reid, Pierre Harvey Richemond, Tyson Roberts, Giles Ruscoe, Jaume Sanchez Elias, Tasha Sandars, Daniel P. Sawyer, Tim Scholtes, Guy Simmons, Daniel Slater, Hubert Soyer, Heiko Strathmann, Peter Stys, Allison C. Tam, Denis Teplyashin, Tayfun Terzi, Davide Vercelli, Bojan Vujatovic, Marcus Wainwright, Jane X. Wang, Zhengdong Wang, Daan Wierstra, Duncan Williams, Nathaniel Wong, Sarah York, Nick Young
28
1

La construction de systèmes d'IA incarnée capables de suivre des instructions linguistiques arbitraires dans n'importe quel environnement 3D constitue un défi majeur pour la création d'une IA générale. Atteindre cet objectif nécessite d'apprendre à ancrer le langage dans la perception et les actions incarnées, afin d'accomplir des tâches complexes. Le projet Scalable, Instructable, Multiworld Agent (SIMA) aborde ce problème en entraînant des agents à suivre des instructions libres dans une diversité d'environnements virtuels 3D, incluant des environnements de recherche soigneusement conçus ainsi que des jeux vidéo commerciaux ouverts. Notre objectif est de développer un agent instructable capable d'accomplir tout ce qu'un humain peut faire dans n'importe quel environnement simulé en 3D. Notre approche se concentre sur la généralité pilotée par le langage tout en imposant des hypothèses minimales. Nos agents interagissent avec les environnements en temps réel via une interface générique et humaine : les entrées sont des observations visuelles et des instructions linguistiques, et les sorties sont des actions clavier-souris. Cette approche générale est complexe, mais elle permet aux agents d'ancrer le langage dans de nombreux environnements visuellement complexes et sémantiquement riches, tout en nous permettant de déployer facilement les agents dans de nouveaux environnements. Dans cet article, nous décrivons notre motivation et notre objectif, les progrès initiaux réalisés, ainsi que des résultats préliminaires prometteurs sur plusieurs environnements de recherche variés et une gamme de jeux vidéo commerciaux.

2

Génération musicale longue durée par diffusion latente
Long-form music generation with latent diffusion

Apr 16
ByZach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
27
1

Les modèles génératifs audio pour la musique ont récemment accompli des progrès significatifs, mais jusqu'à présent, ils n'ont pas réussi à produire des pistes musicales complètes avec une structure musicale cohérente. Nous démontrons qu'en entraînant un modèle génératif sur des contextes temporels longs, il est possible de produire de la musique de longue durée, allant jusqu'à 4 minutes et 45 secondes. Notre modèle repose sur un transformeur de diffusion opérant sur une représentation latente continue fortement sous-échantillonnée (taux latent de 21,5 Hz). Il atteint des performances de pointe en termes de qualité audio et d'alignement avec les prompts, selon des métriques objectives, et des tests subjectifs révèlent qu'il produit de la musique de longue durée avec une structure cohérente.

Apr 16
Apr 17
Apr 18