ChatPaper.aiChatPaper

Lernen von Robotermanipulation durch auditive Weltmodelle

Learning Robot Manipulation from Audio World Models

December 9, 2025
papers.authors: Fan Zhang, Michael Gienger
cs.AI

papers.abstract

Weltmodelle haben beeindruckende Leistungen bei Robotik-Lernaufgaben gezeigt. Viele dieser Aufgaben erfordern inhärent multimodales Reasoning; zum Beispiel ist die visuelle Information allein beim Befüllen einer Flasche mit Wasser mehrdeutig oder unvollständig, was eine Schlussfolgerung über die zeitliche Entwicklung des Audiosignals unter Berücksichtigung seiner zugrundeliegenden physikalischen Eigenschaften und Tonhöhenverläufe erfordert. In diesem Artikel schlagen wir ein generatives latentes Flow-Matching-Modell vor, um zukünftige Audio-Beobachtungen vorherzusagen, was dem System ermöglicht, langfristige Konsequenzen zu berücksichtigen, wenn es in eine Roboterpolitik integriert wird. Wir demonstrieren die überlegenen Fähigkeiten unseres Systems anhand zweier Manipulationsaufgaben, die die Wahrnehmung von Audio- oder Musiksignalen in unstrukturierten Umgebungen erfordern, im Vergleich zu Methoden ohne Vorausschau. Wir betonen weiterhin, dass erfolgreiches Roboter-Aktionslernen für diese Aufgaben nicht nur auf multimodaler Eingabe beruht, sondern entscheidend von der präzisen Vorhersage zukünftiger Audiozustände abhängt, die intrinsische rhythmische Muster verkörpern.
English
World models have demonstrated impressive performance on robotic learning tasks. Many such tasks inherently demand multimodal reasoning; for example, filling a bottle with water will lead to visual information alone being ambiguous or incomplete, thereby requiring reasoning over the temporal evolution of audio, accounting for its underlying physical properties and pitch patterns. In this paper, we propose a generative latent flow matching model to anticipate future audio observations, enabling the system to reason about long-term consequences when integrated into a robot policy. We demonstrate the superior capabilities of our system through two manipulation tasks that require perceiving in-the-wild audio or music signals, compared to methods without future lookahead. We further emphasize that successful robot action learning for these tasks relies not merely on multi-modal input, but critically on the accurate prediction of future audio states that embody intrinsic rhythmic patterns.
PDF12December 17, 2025