StaMo: Необученное обучение обобщаемым движениям робота на основе компактного представления состояний
StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation
October 6, 2025
Авторы: Mingyu Liu, Jiuhe Shu, Hui Chen, Zeju Li, Canyu Zhao, Jiange Yang, Shenyuan Gao, Hao Chen, Chunhua Shen
cs.AI
Аннотация
Фундаментальная проблема в воплощённом интеллекте заключается в разработке выразительных и компактных представлений состояний для эффективного моделирования мира и принятия решений. Однако существующие методы часто не достигают этого баланса, создавая представления, которые либо избыточны, либо лишены критически важной для задачи информации. Мы предлагаем неконтролируемый подход, который обучает высоко сжатое двухтокеновое представление состояния с использованием лёгкого кодировщика и предварительно обученного декодера на основе Diffusion Transformer (DiT), используя его сильный генеративный априор. Наше представление эффективно, интерпретируемо и легко интегрируется в существующие модели на основе VLA, улучшая производительность на 14,3% на LIBERO и на 30% в успешности выполнения реальных задач при минимальных накладных расходах на вывод. Более того, мы обнаруживаем, что разница между этими токенами, полученная через латентную интерполяцию, естественным образом служит высокоэффективным латентным действием, которое может быть декодировано в исполняемые действия робота. Эта возникающая способность показывает, что наше представление захватывает структурированную динамику без явного контроля. Мы называем наш метод StaMo за его способность обучать обобщаемые движения робота из компактного представления состояния, которое кодируется из статических изображений, бросая вызов преобладающей зависимости от обучения латентных действий на сложных архитектурах и видеоданных. Полученные латентные действия также улучшают совместное обучение политик, превосходя предыдущие методы на 10,4% с улучшенной интерпретируемостью. Более того, наш подход эффективно масштабируется на различные источники данных, включая данные реальных роботов, симуляции и эгоцентрическое видео человека.
English
A fundamental challenge in embodied intelligence is developing expressive and
compact state representations for efficient world modeling and decision making.
However, existing methods often fail to achieve this balance, yielding
representations that are either overly redundant or lacking in task-critical
information. We propose an unsupervised approach that learns a highly
compressed two-token state representation using a lightweight encoder and a
pre-trained Diffusion Transformer (DiT) decoder, capitalizing on its strong
generative prior. Our representation is efficient, interpretable, and
integrates seamlessly into existing VLA-based models, improving performance by
14.3% on LIBERO and 30% in real-world task success with minimal inference
overhead. More importantly, we find that the difference between these tokens,
obtained via latent interpolation, naturally serves as a highly effective
latent action, which can be further decoded into executable robot actions. This
emergent capability reveals that our representation captures structured
dynamics without explicit supervision. We name our method StaMo for its ability
to learn generalizable robotic Motion from compact State representation, which
is encoded from static images, challenging the prevalent dependence to learning
latent action on complex architectures and video data. The resulting latent
actions also enhance policy co-training, outperforming prior methods by 10.4%
with improved interpretability. Moreover, our approach scales effectively
across diverse data sources, including real-world robot data, simulation, and
human egocentric video.