ChatPaper.aiChatPaper

Aprendizado de Manipulação Robótica por meio de Modelos de Mundo Auditivo

Learning Robot Manipulation from Audio World Models

December 9, 2025
Autores: Fan Zhang, Michael Gienger
cs.AI

Resumo

Os modelos de mundo demonstraram um desempenho impressionante em tarefas de aprendizagem robótica. Muitas dessas tarefas exigem inerentemente raciocínio multimodal; por exemplo, encher uma garrafa com água tornará a informação visual, por si só, ambígua ou incompleta, exigindo, portanto, o raciocínio sobre a evolução temporal do áudio, considerando suas propriedades físicas subjacentes e padrões de tom. Neste artigo, propomos um modelo generativo de correspondência de fluxo latente para antecipar observações de áudio futuras, permitindo que o sistema raciocine sobre consequências de longo prazo quando integrado a uma política robótica. Demonstramos as capacidades superiores do nosso sistema por meio de duas tarefas de manipulação que exigem a percepção de sinais de áudio ou música em ambientes não controlados, em comparação com métodos sem antecipação futura. Salientamos ainda que o aprendizado de ações robóticas bem-sucedido para essas tarefas depende não apenas da entrada multimodal, mas, criticamente, da previsão precisa de estados de áudio futuros que incorporam padrões rítmicos intrínsecos.
English
World models have demonstrated impressive performance on robotic learning tasks. Many such tasks inherently demand multimodal reasoning; for example, filling a bottle with water will lead to visual information alone being ambiguous or incomplete, thereby requiring reasoning over the temporal evolution of audio, accounting for its underlying physical properties and pitch patterns. In this paper, we propose a generative latent flow matching model to anticipate future audio observations, enabling the system to reason about long-term consequences when integrated into a robot policy. We demonstrate the superior capabilities of our system through two manipulation tasks that require perceiving in-the-wild audio or music signals, compared to methods without future lookahead. We further emphasize that successful robot action learning for these tasks relies not merely on multi-modal input, but critically on the accurate prediction of future audio states that embody intrinsic rhythmic patterns.
PDF23March 6, 2026