ChatPaper.aiChatPaper

로봇 조작의 오디오 세계 모델 기반 학습

Learning Robot Manipulation from Audio World Models

December 9, 2025
저자: Fan Zhang, Michael Gienger
cs.AI

초록

월드 모델은 로봇 학습 과제에서 인상적인 성능을 입증해왔다. 이러한 과제 다수는 본질적으로 다중 모드 추론을 요구한다. 예를 들어, 물병에 물을 채우는 작업은 시각 정보만으로는 모호하거나 불완전하여, 오디오의 시간적 변화를 추론하고 그 기반이 되는 물리적 특성과 음높이 패턴을 고려해야 한다. 본 논문에서는 생성적 잠재 흐름 매칭 모델을 제안하여 미래의 오디오 관측을 예측함으로써, 로봇 정책에 통합될 때 시스템이 장기적 결과에 대해 추론할 수 있도록 한다. 우리는 미래 예측 기능이 없는 방법론들과 비교하여, 실제 환경의 오디오나 음악 신호를 인지해야 하는 두 가지 조작 과제를 통해 본 시스템의 우수한 능력을 입증한다. 나아가, 이러한 과제들에 대한 성공적인 로봇 행동 학습은 단순한 다중 모드 입력이 아닌, 내재된 리듬 패턴을 구현하는 미래 오디오 상태의 정확한 예측에 크게 의존함을 강조한다.
English
World models have demonstrated impressive performance on robotic learning tasks. Many such tasks inherently demand multimodal reasoning; for example, filling a bottle with water will lead to visual information alone being ambiguous or incomplete, thereby requiring reasoning over the temporal evolution of audio, accounting for its underlying physical properties and pitch patterns. In this paper, we propose a generative latent flow matching model to anticipate future audio observations, enabling the system to reason about long-term consequences when integrated into a robot policy. We demonstrate the superior capabilities of our system through two manipulation tasks that require perceiving in-the-wild audio or music signals, compared to methods without future lookahead. We further emphasize that successful robot action learning for these tasks relies not merely on multi-modal input, but critically on the accurate prediction of future audio states that embody intrinsic rhythmic patterns.
PDF12December 17, 2025