StaMo: Aprendizaje no Supervisado de Movimientos Robóticos Generalizables a partir de Representaciones Compactas del Estado
StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation
October 6, 2025
Autores: Mingyu Liu, Jiuhe Shu, Hui Chen, Zeju Li, Canyu Zhao, Jiange Yang, Shenyuan Gao, Hao Chen, Chunhua Shen
cs.AI
Resumen
Un desafío fundamental en la inteligencia encarnada es desarrollar representaciones de estado expresivas y compactas para un modelado eficiente del mundo y la toma de decisiones. Sin embargo, los métodos existentes a menudo no logran este equilibrio, produciendo representaciones que son excesivamente redundantes o carecen de información crítica para la tarea. Proponemos un enfoque no supervisado que aprende una representación de estado altamente comprimida de dos tokens utilizando un codificador ligero y un decodificador preentrenado de Transformador de Difusión (DiT), aprovechando su fuerte prior generativo. Nuestra representación es eficiente, interpretable y se integra perfectamente en los modelos basados en VLA existentes, mejorando el rendimiento en un 14.3% en LIBERO y en un 30% en el éxito de tareas del mundo real con un mínimo sobrecarga de inferencia. Más importante aún, encontramos que la diferencia entre estos tokens, obtenida mediante interpolación latente, sirve naturalmente como una acción latente altamente efectiva, que puede decodificarse en acciones ejecutables por el robot. Esta capacidad emergente revela que nuestra representación captura dinámicas estructuradas sin supervisión explícita. Denominamos a nuestro método StaMo por su capacidad para aprender Movimiento robótico generalizable a partir de una representación de Estado compacta, que se codifica a partir de imágenes estáticas, desafiando la dependencia predominante de aprender acciones latentes en arquitecturas complejas y datos de video. Las acciones latentes resultantes también mejoran el entrenamiento conjunto de políticas, superando a los métodos anteriores en un 10.4% con una interpretabilidad mejorada. Además, nuestro enfoque escala eficazmente en diversas fuentes de datos, incluyendo datos de robots del mundo real, simulaciones y video egocéntrico humano.
English
A fundamental challenge in embodied intelligence is developing expressive and
compact state representations for efficient world modeling and decision making.
However, existing methods often fail to achieve this balance, yielding
representations that are either overly redundant or lacking in task-critical
information. We propose an unsupervised approach that learns a highly
compressed two-token state representation using a lightweight encoder and a
pre-trained Diffusion Transformer (DiT) decoder, capitalizing on its strong
generative prior. Our representation is efficient, interpretable, and
integrates seamlessly into existing VLA-based models, improving performance by
14.3% on LIBERO and 30% in real-world task success with minimal inference
overhead. More importantly, we find that the difference between these tokens,
obtained via latent interpolation, naturally serves as a highly effective
latent action, which can be further decoded into executable robot actions. This
emergent capability reveals that our representation captures structured
dynamics without explicit supervision. We name our method StaMo for its ability
to learn generalizable robotic Motion from compact State representation, which
is encoded from static images, challenging the prevalent dependence to learning
latent action on complex architectures and video data. The resulting latent
actions also enhance policy co-training, outperforming prior methods by 10.4%
with improved interpretability. Moreover, our approach scales effectively
across diverse data sources, including real-world robot data, simulation, and
human egocentric video.