ChatPaper.aiChatPaper

StaMo: Aprendizado Não Supervisionado de Movimento Robótico Generalizável a partir de Representações Compactas de Estado

StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation

October 6, 2025
Autores: Mingyu Liu, Jiuhe Shu, Hui Chen, Zeju Li, Canyu Zhao, Jiange Yang, Shenyuan Gao, Hao Chen, Chunhua Shen
cs.AI

Resumo

Um desafio fundamental na inteligência incorporada é desenvolver representações de estado expressivas e compactas para modelagem eficiente do mundo e tomada de decisões. No entanto, os métodos existentes frequentemente falham em alcançar esse equilíbrio, gerando representações que são ou excessivamente redundantes ou carentes de informações críticas para a tarefa. Propomos uma abordagem não supervisionada que aprende uma representação de estado altamente compacta de dois tokens, utilizando um codificador leve e um decodificador pré-treinado de Transformador de Difusão (DiT), aproveitando seu forte prior generativo. Nossa representação é eficiente, interpretável e integra-se perfeitamente em modelos baseados em VLA, melhorando o desempenho em 14,3% no LIBERO e em 30% no sucesso de tarefas do mundo real com sobrecarga mínima de inferência. Mais importante, descobrimos que a diferença entre esses tokens, obtida por meio de interpolação latente, naturalmente serve como uma ação latente altamente eficaz, que pode ser decodificada em ações executáveis por robôs. Essa capacidade emergente revela que nossa representação captura dinâmicas estruturadas sem supervisão explícita. Nomeamos nosso método de StaMo por sua capacidade de aprender Movimento robótico generalizável a partir de uma representação de Estado compacta, que é codificada a partir de imagens estáticas, desafiando a dependência prevalente de aprender ações latentes em arquiteturas complexas e dados de vídeo. As ações latentes resultantes também aprimoram o co-treinamento de políticas, superando métodos anteriores em 10,4% com maior interpretabilidade. Além disso, nossa abordagem escala efetivamente em diversas fontes de dados, incluindo dados de robôs do mundo real, simulação e vídeo egocêntrico humano.
English
A fundamental challenge in embodied intelligence is developing expressive and compact state representations for efficient world modeling and decision making. However, existing methods often fail to achieve this balance, yielding representations that are either overly redundant or lacking in task-critical information. We propose an unsupervised approach that learns a highly compressed two-token state representation using a lightweight encoder and a pre-trained Diffusion Transformer (DiT) decoder, capitalizing on its strong generative prior. Our representation is efficient, interpretable, and integrates seamlessly into existing VLA-based models, improving performance by 14.3% on LIBERO and 30% in real-world task success with minimal inference overhead. More importantly, we find that the difference between these tokens, obtained via latent interpolation, naturally serves as a highly effective latent action, which can be further decoded into executable robot actions. This emergent capability reveals that our representation captures structured dynamics without explicit supervision. We name our method StaMo for its ability to learn generalizable robotic Motion from compact State representation, which is encoded from static images, challenging the prevalent dependence to learning latent action on complex architectures and video data. The resulting latent actions also enhance policy co-training, outperforming prior methods by 10.4% with improved interpretability. Moreover, our approach scales effectively across diverse data sources, including real-world robot data, simulation, and human egocentric video.
PDF123October 9, 2025