Apprentissage de la Manipulation Robotique par Modèles du Monde Auditif
Learning Robot Manipulation from Audio World Models
December 9, 2025
papers.authors: Fan Zhang, Michael Gienger
cs.AI
papers.abstract
Les modèles de monde ont démontré des performances impressionnantes sur les tâches d'apprentissage robotique. De nombreuses tâches de ce type exigent intrinsèquement un raisonnement multimodal ; par exemple, remplir une bouteille d'eau rendra les informations visuelles seules ambiguës ou incomplètes, nécessitant ainsi un raisonnement sur l'évolution temporelle de l'audio, en tenant compte de ses propriétés physiques sous-jacentes et de ses structures de hauteur. Dans cet article, nous proposons un modèle génératif d'appariement de flux latent pour anticiper les observations audio futures, permettant au système de raisonner sur les conséquences à long terme lorsqu'il est intégré dans une politique robotique. Nous démontrons les capacités supérieures de notre système à travers deux tâches de manipulation qui nécessitent de percevoir des signaux audio ou musicaux en conditions réelles, par rapport à des méthodes sans anticipation future. Nous soulignons en outre que l'apprentissage réussi des actions robotiques pour ces tâches ne repose pas seulement sur une entrée multimodale, mais critique
English
World models have demonstrated impressive performance on robotic learning tasks. Many such tasks inherently demand multimodal reasoning; for example, filling a bottle with water will lead to visual information alone being ambiguous or incomplete, thereby requiring reasoning over the temporal evolution of audio, accounting for its underlying physical properties and pitch patterns. In this paper, we propose a generative latent flow matching model to anticipate future audio observations, enabling the system to reason about long-term consequences when integrated into a robot policy. We demonstrate the superior capabilities of our system through two manipulation tasks that require perceiving in-the-wild audio or music signals, compared to methods without future lookahead. We further emphasize that successful robot action learning for these tasks relies not merely on multi-modal input, but critically on the accurate prediction of future audio states that embody intrinsic rhythmic patterns.