ChatPaper.aiChatPaper

StaMo: Apprendimento non supervisionato di movimenti robotici generalizzabili da rappresentazioni compatte dello stato

StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation

October 6, 2025
Autori: Mingyu Liu, Jiuhe Shu, Hui Chen, Zeju Li, Canyu Zhao, Jiange Yang, Shenyuan Gao, Hao Chen, Chunhua Shen
cs.AI

Abstract

Una sfida fondamentale nell'intelligenza incarnata è lo sviluppo di rappresentazioni di stato espressive e compatte per una modellazione efficiente del mondo e la presa di decisioni. Tuttavia, i metodi esistenti spesso non riescono a raggiungere questo equilibrio, producendo rappresentazioni che sono o eccessivamente ridondanti o carenti di informazioni critiche per il compito. Proponiamo un approccio non supervisionato che apprende una rappresentazione di stato altamente compressa a due token utilizzando un encoder leggero e un decoder pre-addestrato basato su Diffusion Transformer (DiT), sfruttando il suo forte prior generativo. La nostra rappresentazione è efficiente, interpretabile e si integra perfettamente nei modelli esistenti basati su VLA, migliorando le prestazioni del 14,3% su LIBERO e del 30% nel successo delle attività nel mondo reale con un sovraccarico di inferenza minimo. Ancora più importante, scopriamo che la differenza tra questi token, ottenuta tramite interpolazione latente, funziona naturalmente come un'azione latente altamente efficace, che può essere ulteriormente decodificata in azioni eseguibili dal robot. Questa capacità emergente rivela che la nostra rappresentazione cattura dinamiche strutturate senza una supervisione esplicita. Abbiamo chiamato il nostro metodo StaMo per la sua capacità di apprendere Movimenti robotici generalizzabili da una rappresentazione di Stato compatta, che viene codificata da immagini statiche, sfidando la dipendenza prevalente dall'apprendimento di azioni latenti su architetture complesse e dati video. Le azioni latenti risultanti migliorano anche il co-addestramento delle politiche, superando i metodi precedenti del 10,4% con una migliore interpretabilità. Inoltre, il nostro approccio scala efficacemente su diverse fonti di dati, inclusi dati robotici del mondo reale, simulazione e video egocentrici umani.
English
A fundamental challenge in embodied intelligence is developing expressive and compact state representations for efficient world modeling and decision making. However, existing methods often fail to achieve this balance, yielding representations that are either overly redundant or lacking in task-critical information. We propose an unsupervised approach that learns a highly compressed two-token state representation using a lightweight encoder and a pre-trained Diffusion Transformer (DiT) decoder, capitalizing on its strong generative prior. Our representation is efficient, interpretable, and integrates seamlessly into existing VLA-based models, improving performance by 14.3% on LIBERO and 30% in real-world task success with minimal inference overhead. More importantly, we find that the difference between these tokens, obtained via latent interpolation, naturally serves as a highly effective latent action, which can be further decoded into executable robot actions. This emergent capability reveals that our representation captures structured dynamics without explicit supervision. We name our method StaMo for its ability to learn generalizable robotic Motion from compact State representation, which is encoded from static images, challenging the prevalent dependence to learning latent action on complex architectures and video data. The resulting latent actions also enhance policy co-training, outperforming prior methods by 10.4% with improved interpretability. Moreover, our approach scales effectively across diverse data sources, including real-world robot data, simulation, and human egocentric video.
PDF123October 9, 2025