StaMo : Apprentissage non supervisé de mouvements robotiques généralisables à partir d'une représentation compacte de l'état

papers.abstract

Un défi fondamental dans l'intelligence incarnée consiste à développer des représentations d'état expressives et compactes pour une modélisation efficace du monde et une prise de décision optimale. Cependant, les méthodes existantes échouent souvent à atteindre cet équilibre, produisant des représentations soit excessivement redondantes, soit dépourvues d'informations cruciales pour la tâche. Nous proposons une approche non supervisée qui apprend une représentation d'état hautement compressée en deux tokens, utilisant un encodeur léger et un décodeur pré-entraîné basé sur un Transformeur de Diffusion (DiT), tirant parti de son fort a priori génératif. Notre représentation est efficace, interprétable et s'intègre de manière transparente dans les modèles existants basés sur VLA, améliorant les performances de 14,3 % sur LIBERO et de 30 % dans la réussite de tâches réelles avec un surcoût d'inférence minimal. Plus important encore, nous constatons que la différence entre ces tokens, obtenue via interpolation latente, sert naturellement d'action latente hautement efficace, qui peut être ensuite décodée en actions exécutables par un robot. Cette capacité émergente révèle que notre représentation capture des dynamiques structurées sans supervision explicite. Nous nommons notre méthode StaMo pour sa capacité à apprendre un Mouvement robotique généralisable à partir d'une représentation d'État compacte, encodée à partir d'images statiques, remettant en question la dépendance prévalente à l'apprentissage d'actions latentes sur des architectures complexes et des données vidéo. Les actions latentes résultantes améliorent également l'entraînement conjoint des politiques, surpassant les méthodes antérieures de 10,4 % avec une meilleure interprétabilité. De plus, notre approche s'adapte efficacement à diverses sources de données, incluant des données robotiques réelles, des simulations et des vidéos égocentriques humaines.

English

A fundamental challenge in embodied intelligence is developing expressive and compact state representations for efficient world modeling and decision making. However, existing methods often fail to achieve this balance, yielding representations that are either overly redundant or lacking in task-critical information. We propose an unsupervised approach that learns a highly compressed two-token state representation using a lightweight encoder and a pre-trained Diffusion Transformer (DiT) decoder, capitalizing on its strong generative prior. Our representation is efficient, interpretable, and integrates seamlessly into existing VLA-based models, improving performance by 14.3% on LIBERO and 30% in real-world task success with minimal inference overhead. More importantly, we find that the difference between these tokens, obtained via latent interpolation, naturally serves as a highly effective latent action, which can be further decoded into executable robot actions. This emergent capability reveals that our representation captures structured dynamics without explicit supervision. We name our method StaMo for its ability to learn generalizable robotic Motion from compact State representation, which is encoded from static images, challenging the prevalent dependence to learning latent action on complex architectures and video data. The resulting latent actions also enhance policy co-training, outperforming prior methods by 10.4% with improved interpretability. Moreover, our approach scales effectively across diverse data sources, including real-world robot data, simulation, and human egocentric video.

StaMo : Apprentissage non supervisé de mouvements robotiques généralisables à partir d'une représentation compacte de l'état

StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation

papers.abstract

Support