ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

Масштабирование инструктируемых агентов во множестве симулированных миров.
Scaling Instructable Agents Across Many Simulated Worlds

Mar 13
BySIMA Team, Maria Abi Raad, Arun Ahuja, Catarina Barros, Frederic Besse, Andrew Bolt, Adrian Bolton, Bethanie Brownfield, Gavin Buttimore, Max Cant, Sarah Chakera, Stephanie C. Y. Chan, Jeff Clune, Adrian Collister, Vikki Copeman, Alex Cullum, Ishita Dasgupta, Dario de Cesare, Julia Di Trapani, Yani Donchev, Emma Dunleavy, Martin Engelcke, Ryan Faulkner, Frankie Garcia, Charles Gbadamosi, Zhitao Gong, Lucy Gonzales, Karol Gregor, Arne Olav Hallingstad, Tim Harley, Sam Haves, Felix Hill, Ed Hirst, Drew A. Hudson, Steph Hughes-Fitt, Danilo J. Rezende, Mimi Jasarevic, Laura Kampis, Rosemary Ke, Thomas Keck, Junkyung Kim, Oscar Knagg, Kavya Kopparapu, Andrew Lampinen, Shane Legg, Alexander Lerchner, Marjorie Limont, Yulan Liu, Maria Loks-Thompson, Joseph Marino, Kathryn Martin Cussons, Loic Matthey, Siobhan Mcloughlin, Piermaria Mendolicchio, Hamza Merzic, Anna Mitenkova, Alexandre Moufarek, Valeria Oliveira, Yanko Oliveira, Hannah Openshaw, Renke Pan, Aneesh Pappu, Alex Platonov, Ollie Purkiss, David Reichert, John Reid, Pierre Harvey Richemond, Tyson Roberts, Giles Ruscoe, Jaume Sanchez Elias, Tasha Sandars, Daniel P. Sawyer, Tim Scholtes, Guy Simmons, Daniel Slater, Hubert Soyer, Heiko Strathmann, Peter Stys, Allison C. Tam, Denis Teplyashin, Tayfun Terzi, Davide Vercelli, Bojan Vujatovic, Marcus Wainwright, Jane X. Wang, Zhengdong Wang, Daan Wierstra, Duncan Williams, Nathaniel Wong, Sarah York, Nick Young
28
1

Построение инкорпорированных систем искусственного интеллекта, способных выполнять произвольные языковые инструкции в любой трехмерной среде, является ключевой задачей для создания общего искусственного интеллекта. Достижение этой цели требует научиться связывать язык с восприятием и инкорпорированными действиями для выполнения сложных задач. Проект Scalable, Instructable, Multiworld Agent (SIMA) решает эту проблему, обучая агентов выполнять свободные инструкции в разнообразных виртуальных трехмерных средах, включая подготовленные исследовательские среды, а также открытые коммерческие видеоигры. Наша цель - разработать инструктируемого агента, способного выполнять все, что может сделать человек, в любой симулированной трехмерной среде. Наш подход сосредотачивается на языковой общности, минимизируя предположения. Наши агенты взаимодействуют с окружающей средой в реальном времени, используя универсальный, похожий на человеческий интерфейс: на вход поступают изображения и языковые инструкции, а на выходе - действия с помощью клавиатуры и мыши. Этот общий подход сложен, но позволяет агентам связывать язык в разнообразных визуально сложных и семантически насыщенных средах, а также легко запускать агентов в новых средах. В данной статье мы описываем наши мотивацию и цель, начальные успехи, которые мы достигли, и многообещающие предварительные результаты на нескольких разнообразных исследовательских средах и различных коммерческих видеоиграх.

2

Генерация музыки большой продолжительности с использованием латентной диффузии
Long-form music generation with latent diffusion

Apr 16
ByZach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
27
1

Аудио-ориентированные генеративные модели для музыки недавно сделали значительные успехи, однако до сих пор не смогли создать полноценные музыкальные композиции с цельной музыкальной структурой. Мы показываем, что обучив генеративную модель на длинных временных контекстах, можно создавать музыку продолжительностью до 4 минут 45 секунд. Наша модель состоит из диффузионного трансформера, работающего с высоко децимированным непрерывным латентным представлением (скорость латентности 21,5 Гц). Она достигает передовых результатов по метрикам качества звука и соответствия запросу, и субъективные тесты показывают, что она создает полноценную музыку с цельной структурой.

Apr 16
Apr 17
Apr 18