ChatPaper.aiChatPaper

StaMo: Onbegeleid leren van generaliseerbare robotbeweging vanuit compacte toestandsrepresentatie

StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation

October 6, 2025
Auteurs: Mingyu Liu, Jiuhe Shu, Hui Chen, Zeju Li, Canyu Zhao, Jiange Yang, Shenyuan Gao, Hao Chen, Chunhua Shen
cs.AI

Samenvatting

Een fundamentele uitdaging in belichaamde intelligentie is het ontwikkelen van expressieve en compacte toestandsrepresentaties voor efficiënte wereldmodellering en besluitvorming. Bestaande methoden slagen er echter vaak niet in om deze balans te bereiken, wat resulteert in representaties die ofwel overdreven redundant zijn of tekortschieten in taakkritische informatie. Wij stellen een onbewaakte aanpak voor die een sterk gecomprimeerde tweetoken-toestandsrepresentatie leert met behulp van een lichtgewicht encoder en een vooraf getrainde Diffusion Transformer (DiT) decoder, waarbij gebruik wordt gemaakt van zijn sterke generatieve prior. Onze representatie is efficiënt, interpreteerbaar en integreert naadloos in bestaande VLA-gebaseerde modellen, wat de prestaties verbetert met 14,3% op LIBERO en 30% in real-world taaksucces met minimale inferentie-overhead. Belangrijker nog, we ontdekken dat het verschil tussen deze tokens, verkregen via latente interpolatie, van nature dienst doet als een zeer effectieve latente actie, die verder kan worden gedecodeerd in uitvoerbare robotacties. Dit opkomende vermogen onthult dat onze representatie gestructureerde dynamiek vastlegt zonder expliciete supervisie. We noemen onze methode StaMo vanwege zijn vermogen om generaliseerbare robotbeweging te leren van compacte toestandsrepresentatie, die wordt gecodeerd vanuit statische beelden, wat de heersende afhankelijkheid van het leren van latente actie op complexe architecturen en videogegevens uitdaagt. De resulterende latente acties verbeteren ook het co-trainen van beleid, waarbij ze eerdere methoden met 10,4% overtreffen en de interpreteerbaarheid verbeteren. Bovendien schaalt onze aanpak effectief over diverse databronnen, waaronder real-world robotdata, simulatie en menselijke egocentrische video.
English
A fundamental challenge in embodied intelligence is developing expressive and compact state representations for efficient world modeling and decision making. However, existing methods often fail to achieve this balance, yielding representations that are either overly redundant or lacking in task-critical information. We propose an unsupervised approach that learns a highly compressed two-token state representation using a lightweight encoder and a pre-trained Diffusion Transformer (DiT) decoder, capitalizing on its strong generative prior. Our representation is efficient, interpretable, and integrates seamlessly into existing VLA-based models, improving performance by 14.3% on LIBERO and 30% in real-world task success with minimal inference overhead. More importantly, we find that the difference between these tokens, obtained via latent interpolation, naturally serves as a highly effective latent action, which can be further decoded into executable robot actions. This emergent capability reveals that our representation captures structured dynamics without explicit supervision. We name our method StaMo for its ability to learn generalizable robotic Motion from compact State representation, which is encoded from static images, challenging the prevalent dependence to learning latent action on complex architectures and video data. The resulting latent actions also enhance policy co-training, outperforming prior methods by 10.4% with improved interpretability. Moreover, our approach scales effectively across diverse data sources, including real-world robot data, simulation, and human egocentric video.
PDF123October 9, 2025