音響世界モデルからのロボットマニピュレーション学習
Learning Robot Manipulation from Audio World Models
December 9, 2025
著者: Fan Zhang, Michael Gienger
cs.AI
要旨
ワールドモデルは、ロボット学習タスクにおいて印象的な性能を実証している。多くのタスクは本質的にマルチモーダルな推論を必要とする。例えば、ボトルに水を注ぐ作業では、視覚情報だけでは曖昧あるいは不完全であり、音声の時間的変化を推論し、その背後にある物理的特性やピッチパターンを考慮する必要が生じる。本論文では、生成的な潜在フローマッチングモデルを提案し、将来の音声観測を予測することで、ロボットポリシーに統合した際に長期的な結果を推論可能にする。本システムの優れた能力を、将来の先読みを行わない手法と比較し、実環境の音声や音楽信号を感知する必要がある2つの操作タスクを通じて実証する。さらにこれらのタスクにおけるロボット動作学習の成功は、単なるマルチモーダル入力ではなく、内在的なリズムパターンを具現化する将来の音声状態の正確な予測に大きく依存することを強調する。
English
World models have demonstrated impressive performance on robotic learning tasks. Many such tasks inherently demand multimodal reasoning; for example, filling a bottle with water will lead to visual information alone being ambiguous or incomplete, thereby requiring reasoning over the temporal evolution of audio, accounting for its underlying physical properties and pitch patterns. In this paper, we propose a generative latent flow matching model to anticipate future audio observations, enabling the system to reason about long-term consequences when integrated into a robot policy. We demonstrate the superior capabilities of our system through two manipulation tasks that require perceiving in-the-wild audio or music signals, compared to methods without future lookahead. We further emphasize that successful robot action learning for these tasks relies not merely on multi-modal input, but critically on the accurate prediction of future audio states that embody intrinsic rhythmic patterns.