Aprendizaje de la Manipulación Robótica mediante Modelos de Mundo Auditivo
Learning Robot Manipulation from Audio World Models
December 9, 2025
Autores: Fan Zhang, Michael Gienger
cs.AI
Resumen
Los modelos del mundo han demostrado un rendimiento impresionante en tareas de aprendizaje robótico. Muchas de estas tareas exigen inherentemente un razonamiento multimodal; por ejemplo, llenar una botella con agua hará que la información visual por sí sola sea ambigua o incompleta, requiriendo así razonar sobre la evolución temporal del audio, teniendo en cuenta sus propiedades físicas subyacentes y sus patrones de tono. En este artículo, proponemos un modelo generativo de ajuste de flujo latente para anticipar observaciones de audio futuras, lo que permite al sistema razonar sobre las consecuencias a largo plazo cuando se integra en una política de robot. Demostramos las capacidades superiores de nuestro sistema mediante dos tareas de manipulación que requieren percibir señales de audio o música en entornos no controlados, en comparación con métodos que carecen de anticipación futura. Además, enfatizamos que el aprendizaje exitoso de acciones robóticas para estas tareas no depende meramente de la entrada multimodal, sino críticamente de la predicción precisa de los estados de audio futuros que incorporan patrones rítmicos intrínsecos.
English
World models have demonstrated impressive performance on robotic learning tasks. Many such tasks inherently demand multimodal reasoning; for example, filling a bottle with water will lead to visual information alone being ambiguous or incomplete, thereby requiring reasoning over the temporal evolution of audio, accounting for its underlying physical properties and pitch patterns. In this paper, we propose a generative latent flow matching model to anticipate future audio observations, enabling the system to reason about long-term consequences when integrated into a robot policy. We demonstrate the superior capabilities of our system through two manipulation tasks that require perceiving in-the-wild audio or music signals, compared to methods without future lookahead. We further emphasize that successful robot action learning for these tasks relies not merely on multi-modal input, but critically on the accurate prediction of future audio states that embody intrinsic rhythmic patterns.