StaMo: Необученное обучение обобщаемым движениям робота на основе компактного представления состояний

Аннотация

Фундаментальная проблема в воплощённом интеллекте заключается в разработке выразительных и компактных представлений состояний для эффективного моделирования мира и принятия решений. Однако существующие методы часто не достигают этого баланса, создавая представления, которые либо избыточны, либо лишены критически важной для задачи информации. Мы предлагаем неконтролируемый подход, который обучает высоко сжатое двухтокеновое представление состояния с использованием лёгкого кодировщика и предварительно обученного декодера на основе Diffusion Transformer (DiT), используя его сильный генеративный априор. Наше представление эффективно, интерпретируемо и легко интегрируется в существующие модели на основе VLA, улучшая производительность на 14,3% на LIBERO и на 30% в успешности выполнения реальных задач при минимальных накладных расходах на вывод. Более того, мы обнаруживаем, что разница между этими токенами, полученная через латентную интерполяцию, естественным образом служит высокоэффективным латентным действием, которое может быть декодировано в исполняемые действия робота. Эта возникающая способность показывает, что наше представление захватывает структурированную динамику без явного контроля. Мы называем наш метод StaMo за его способность обучать обобщаемые движения робота из компактного представления состояния, которое кодируется из статических изображений, бросая вызов преобладающей зависимости от обучения латентных действий на сложных архитектурах и видеоданных. Полученные латентные действия также улучшают совместное обучение политик, превосходя предыдущие методы на 10,4% с улучшенной интерпретируемостью. Более того, наш подход эффективно масштабируется на различные источники данных, включая данные реальных роботов, симуляции и эгоцентрическое видео человека.

English

A fundamental challenge in embodied intelligence is developing expressive and compact state representations for efficient world modeling and decision making. However, existing methods often fail to achieve this balance, yielding representations that are either overly redundant or lacking in task-critical information. We propose an unsupervised approach that learns a highly compressed two-token state representation using a lightweight encoder and a pre-trained Diffusion Transformer (DiT) decoder, capitalizing on its strong generative prior. Our representation is efficient, interpretable, and integrates seamlessly into existing VLA-based models, improving performance by 14.3% on LIBERO and 30% in real-world task success with minimal inference overhead. More importantly, we find that the difference between these tokens, obtained via latent interpolation, naturally serves as a highly effective latent action, which can be further decoded into executable robot actions. This emergent capability reveals that our representation captures structured dynamics without explicit supervision. We name our method StaMo for its ability to learn generalizable robotic Motion from compact State representation, which is encoded from static images, challenging the prevalent dependence to learning latent action on complex architectures and video data. The resulting latent actions also enhance policy co-training, outperforming prior methods by 10.4% with improved interpretability. Moreover, our approach scales effectively across diverse data sources, including real-world robot data, simulation, and human egocentric video.

StaMo: Необученное обучение обобщаемым движениям робота на основе компактного представления состояний

StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation

Аннотация

Support