Обучение манипуляции роботов с помощью аудио-мировых моделей
Learning Robot Manipulation from Audio World Models
December 9, 2025
Авторы: Fan Zhang, Michael Gienger
cs.AI
Аннотация
Модели мира продемонстрировали впечатляющие результаты в задачах обучения роботов. Многие из этих задач по своей природе требуют мультимодального анализа; например, наполнение бутылки водой делает только визуальную информацию неоднозначной или неполной, что требует анализа временной эволюции аудиосигнала с учетом его физических свойств и частотных характеристик. В данной статье мы предлагаем генеративную модель сопоставления латентных потоков для прогнозирования будущих аудионаблюдений, что позволяет системе учитывать долгосрочные последствия при интеграции в политику робота. Мы демонстрируем превосходные возможности нашей системы на двух задачах манипулирования, требующих восприятия реальных аудиосигналов или музыки, в сравнении с методами без прогнозирования. Мы также подчеркиваем, что успешное обучение действиям робота для этих задач зависит не просто от мультимодального ввода, но критически важно точное предсказание будущих аудиосостояний, которые воплощают внутренние ритмические паттерны.
English
World models have demonstrated impressive performance on robotic learning tasks. Many such tasks inherently demand multimodal reasoning; for example, filling a bottle with water will lead to visual information alone being ambiguous or incomplete, thereby requiring reasoning over the temporal evolution of audio, accounting for its underlying physical properties and pitch patterns. In this paper, we propose a generative latent flow matching model to anticipate future audio observations, enabling the system to reason about long-term consequences when integrated into a robot policy. We demonstrate the superior capabilities of our system through two manipulation tasks that require perceiving in-the-wild audio or music signals, compared to methods without future lookahead. We further emphasize that successful robot action learning for these tasks relies not merely on multi-modal input, but critically on the accurate prediction of future audio states that embody intrinsic rhythmic patterns.