EmbodiedOneVision: Совместное предварительное обучение на основе чередования визуальных данных, текста и действий для универсального управления роботами
EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control
August 28, 2025
Авторы: Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang
cs.AI
Аннотация
Способность человека к бесшовному выполнению мультимодального рассуждения и физического взаимодействия в открытом мире является ключевой целью для универсальных воплощенных интеллектуальных систем. Недавние модели, объединяющие зрение, язык и действия (VLA), которые совместно обучаются на крупномасштабных данных роботов и визуально-текстовой информации, продемонстрировали значительный прогресс в общем управлении роботами. Однако они все еще не достигают человеческой гибкости в чередующемся рассуждении и взаимодействии. В данной работе представлена EO-Robotics, включающая модель EO-1 и набор данных EO-Data1.5M. EO-1 — это унифицированная воплощенная базовая модель, которая достигает превосходной производительности в мультимодальном воплощенном рассуждении и управлении роботами благодаря чередующемуся предварительному обучению на данных зрения, текста и действий. Разработка EO-1 основана на двух ключевых принципах: (i) унифицированная архитектура, которая обрабатывает мультимодальные входные данные без различия (изображения, текст, видео и действия), и (ii) крупномасштабный, высококачественный набор данных для мультимодального воплощенного рассуждения EO-Data1.5M, содержащий более 1,5 миллиона образцов с акцентом на чередующееся понимание зрения, текста и действий. EO-1 обучается за счет синергии между авторегрессивным декодированием и денизингом с использованием метода flow matching на данных EO-Data1.5M, что позволяет бесшовно генерировать действия роботов и выполнять мультимодальное воплощенное рассуждение. Многочисленные эксперименты демонстрируют эффективность чередующегося обучения на данных зрения, текста и действий для понимания и обобщения в открытом мире, что подтверждается выполнением различных долгосрочных задач ловкого манипулирования на множестве воплощений. В данной статье подробно описываются архитектура EO-1, стратегия построения данных EO-Data1.5M и методология обучения, предлагая ценные инсайты для разработки передовых воплощенных базовых моделей.
English
The human ability to seamlessly perform multimodal reasoning and physical
interaction in the open world is a core goal for general-purpose embodied
intelligent systems. Recent vision-language-action (VLA) models, which are
co-trained on large-scale robot and visual-text data, have demonstrated notable
progress in general robot control. However, they still fail to achieve
human-level flexibility in interleaved reasoning and interaction. In this work,
introduce EO-Robotics, consists of EO-1 model and EO-Data1.5M dataset. EO-1 is
a unified embodied foundation model that achieves superior performance in
multimodal embodied reasoning and robot control through interleaved
vision-text-action pre-training. The development of EO-1 is based on two key
pillars: (i) a unified architecture that processes multimodal inputs
indiscriminately (image, text, video, and action), and (ii) a massive,
high-quality multimodal embodied reasoning dataset, EO-Data1.5M, which contains
over 1.5 million samples with emphasis on interleaved vision-text-action
comprehension. EO-1 is trained through synergies between auto-regressive
decoding and flow matching denoising on EO-Data1.5M, enabling seamless robot
action generation and multimodal embodied reasoning. Extensive experiments
demonstrate the effectiveness of interleaved vision-text-action learning for
open-world understanding and generalization, validated through a variety of
long-horizon, dexterous manipulation tasks across multiple embodiments. This
paper details the architecture of EO-1, the data construction strategy of
EO-Data1.5M, and the training methodology, offering valuable insights for
developing advanced embodied foundation models.