ChatPaper.aiChatPaper

StaMo: Unüberwachtes Lernen generalisierbarer Roboterbewegungen aus kompakten Zustandsrepräsentationen

StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation

October 6, 2025
papers.authors: Mingyu Liu, Jiuhe Shu, Hui Chen, Zeju Li, Canyu Zhao, Jiange Yang, Shenyuan Gao, Hao Chen, Chunhua Shen
cs.AI

papers.abstract

Eine grundlegende Herausforderung in der verkörperten Intelligenz besteht darin, ausdrucksstarke und kompakte Zustandsrepräsentationen für effiziente Weltmodellierung und Entscheidungsfindung zu entwickeln. Bisherige Methoden erreichen jedoch oft nicht dieses Gleichgewicht und erzeugen Repräsentationen, die entweder übermäßig redundant sind oder wichtige aufgabenrelevante Informationen vermissen lassen. Wir schlagen einen unüberwachten Ansatz vor, der eine stark komprimierte Zwei-Token-Zustandsrepräsentation mithilfe eines leichtgewichtigen Encoders und eines vortrainierten Diffusion Transformer (DiT)-Decoders lernt, wobei dessen starkes generatives Vorwissen genutzt wird. Unsere Repräsentation ist effizient, interpretierbar und lässt sich nahtlos in bestehende VLA-basierte Modelle integrieren, wodurch die Leistung um 14,3 % auf LIBERO und um 30 % bei der Erfolgsrate realer Aufgaben bei minimalem Inferenzaufwand verbessert wird. Noch wichtiger ist, dass wir feststellen, dass die Differenz zwischen diesen Tokens, die durch latente Interpolation gewonnen wird, natürlicherweise als hochwirksame latente Aktion dient, die weiter in ausführbare Roboteraktionen decodiert werden kann. Diese emergente Fähigkeit zeigt, dass unsere Repräsentation strukturierte Dynamiken ohne explizite Überwachung erfasst. Wir nennen unsere Methode StaMo, da sie generalisierbare robotische Bewegung aus kompakter Zustandsrepräsentation lernt, die aus statischen Bildern kodiert wird, und damit die weit verbreitete Abhängigkeit von komplexen Architekturen und Videodaten für das Lernen latenter Aktionen in Frage stellt. Die resultierenden latenten Aktionen verbessern auch das Policy-Co-Training und übertreffen bisherige Methoden um 10,4 % bei verbesserter Interpretierbarkeit. Darüber hinaus skaliert unser Ansatz effektiv über diverse Datenquellen hinweg, einschließlich realer Roboterdaten, Simulationen und humaner egozentrischer Videos.
English
A fundamental challenge in embodied intelligence is developing expressive and compact state representations for efficient world modeling and decision making. However, existing methods often fail to achieve this balance, yielding representations that are either overly redundant or lacking in task-critical information. We propose an unsupervised approach that learns a highly compressed two-token state representation using a lightweight encoder and a pre-trained Diffusion Transformer (DiT) decoder, capitalizing on its strong generative prior. Our representation is efficient, interpretable, and integrates seamlessly into existing VLA-based models, improving performance by 14.3% on LIBERO and 30% in real-world task success with minimal inference overhead. More importantly, we find that the difference between these tokens, obtained via latent interpolation, naturally serves as a highly effective latent action, which can be further decoded into executable robot actions. This emergent capability reveals that our representation captures structured dynamics without explicit supervision. We name our method StaMo for its ability to learn generalizable robotic Motion from compact State representation, which is encoded from static images, challenging the prevalent dependence to learning latent action on complex architectures and video data. The resulting latent actions also enhance policy co-training, outperforming prior methods by 10.4% with improved interpretability. Moreover, our approach scales effectively across diverse data sources, including real-world robot data, simulation, and human egocentric video.
PDF113October 9, 2025