ChatPaper.aiChatPaper

Leren van Robotmanipulatie via Auditieve Wereldmodellen

Learning Robot Manipulation from Audio World Models

December 9, 2025
Auteurs: Fan Zhang, Michael Gienger
cs.AI

Samenvatting

Wereldmodellen hebben indrukwekkende prestaties geleverd bij robotleertaken. Veel van dergelijke taken vereisen inherent multimodaal redeneren; bijvoorbeeld, het vullen van een fles met water maakt visuele informatie alleen dubbelzinnig of onvolledig, waardoor redeneren over de temporele evolutie van audio nodig is, met inachtneming van de onderliggende fysische eigenschappen en toonhoogtepatronen. In dit artikel stellen we een generatief latent flow matching-model voor om toekomstige audio-waarnemingen te anticiperen, waardoor het systeem in staat is om op lange termijn consequenties te overwegen wanneer het wordt geïntegreerd in een robotbeleid. We demonstreren de superieure capaciteiten van ons systeem via twee manipulatietaken die waarneming van audio- of muzieksignalen in niet-gecontroleerde omgevingen vereisen, in vergelijking met methoden zonder toekomstige vooruitblik. We benadrukken verder dat succesvolle robotactie-leren voor deze taken niet alleen afhangt van multimodale input, maar cruciaal van de accurate voorspelling van toekomstige audiostoestanden die intrinsieke ritmische patronen belichamen.
English
World models have demonstrated impressive performance on robotic learning tasks. Many such tasks inherently demand multimodal reasoning; for example, filling a bottle with water will lead to visual information alone being ambiguous or incomplete, thereby requiring reasoning over the temporal evolution of audio, accounting for its underlying physical properties and pitch patterns. In this paper, we propose a generative latent flow matching model to anticipate future audio observations, enabling the system to reason about long-term consequences when integrated into a robot policy. We demonstrate the superior capabilities of our system through two manipulation tasks that require perceiving in-the-wild audio or music signals, compared to methods without future lookahead. We further emphasize that successful robot action learning for these tasks relies not merely on multi-modal input, but critically on the accurate prediction of future audio states that embody intrinsic rhythmic patterns.
PDF12December 22, 2025