Apprendimento della Manipolazione Robotica tramite Modelli del Mondo Audio
Learning Robot Manipulation from Audio World Models
December 9, 2025
Autori: Fan Zhang, Michael Gienger
cs.AI
Abstract
I modelli del mondo hanno dimostrato prestazioni impressionanti nei compiti di apprendimento robotico. Molti di questi compiti richiedono intrinsecamente un ragionamento multimodale; ad esempio, riempire una bottiglia d'acqua renderebbe le informazioni visive da sole ambigue o incomplete, richiedendo quindi un ragionamento sull'evoluzione temporale dell'audio, tenendo conto delle sue proprietà fisiche sottostanti e dei modelli di tonalità. In questo articolo, proponiamo un modello generativo di flusso latente per anticipare le future osservazioni audio, consentendo al sistema di ragionare sulle conseguenze a lungo termine quando integrato in una policy robotica. Dimostriamo le capacità superiori del nostro sistema attraverso due compiti di manipolazione che richiedono la percezione di segnali audio o musicali in ambienti non controllati, rispetto a metodi privi di previsione futura. Sottolineiamo inoltre che l'apprendimento di azioni robotiche di successo per questi compiti non si basa semplicemente su un input multimodale, ma dipende criticamente dalla previsione accurata degli stati audio futuri che incarnano modelli ritmici intrinseci.
English
World models have demonstrated impressive performance on robotic learning tasks. Many such tasks inherently demand multimodal reasoning; for example, filling a bottle with water will lead to visual information alone being ambiguous or incomplete, thereby requiring reasoning over the temporal evolution of audio, accounting for its underlying physical properties and pitch patterns. In this paper, we propose a generative latent flow matching model to anticipate future audio observations, enabling the system to reason about long-term consequences when integrated into a robot policy. We demonstrate the superior capabilities of our system through two manipulation tasks that require perceiving in-the-wild audio or music signals, compared to methods without future lookahead. We further emphasize that successful robot action learning for these tasks relies not merely on multi-modal input, but critically on the accurate prediction of future audio states that embody intrinsic rhythmic patterns.