EmbodiedOneVision: 일반 로봇 제어를 위한 시각-텍스트-행동 인터리브 사전 학습
EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control
August 28, 2025
저자: Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang
cs.AI
초록
개방된 세계에서 다중 모드 추론과 물리적 상호작용을 원활하게 수행하는 인간의 능력은 범용 구현 지능 시스템의 핵심 목표입니다. 최근 대규모 로봇 및 시각-텍스트 데이터를 공동 학습한 시각-언어-행동(VLA) 모델들은 일반 로봇 제어에서 주목할 만한 진전을 보여주었습니다. 그러나 이러한 모델들은 여전히 교차 추론과 상호작용에서 인간 수준의 유연성을 달성하지 못하고 있습니다. 본 연구에서는 EO-1 모델과 EO-Data1.5M 데이터셋으로 구성된 EO-Robotics를 소개합니다. EO-1은 교차 시각-텍스트-행동 사전 학습을 통해 다중 모드 구현 추론과 로봇 제어에서 우수한 성능을 달성하는 통합 구현 기반 모델입니다. EO-1의 개발은 두 가지 핵심 기둥에 기반합니다: (i) 이미지, 텍스트, 비디오, 행동 등 다중 모드 입력을 구분 없이 처리하는 통합 아키텍처, 그리고 (ii) 교차 시각-텍스트-행동 이해를 강조한 150만 개 이상의 샘플을 포함한 대규모 고품질 다중 모드 구현 추론 데이터셋인 EO-Data1.5M입니다. EO-1은 EO-Data1.5M에서 자동 회귀 디코딩과 흐름 매칭 노이즈 제거 간의 시너지를 통해 학습되어, 원활한 로봇 행동 생성과 다중 모드 구현 추론이 가능합니다. 다양한 장기적이고 정교한 조작 작업을 통해 검증된 실험들은 개방된 세계 이해와 일반화를 위한 교차 시각-텍스트-행동 학습의 효과를 입증합니다. 본 논문은 EO-1의 아키텍처, EO-Data1.5M의 데이터 구성 전략, 그리고 학습 방법론을 상세히 설명함으로써, 고급 구현 기반 모델 개발에 유용한 통찰을 제공합니다.
English
The human ability to seamlessly perform multimodal reasoning and physical
interaction in the open world is a core goal for general-purpose embodied
intelligent systems. Recent vision-language-action (VLA) models, which are
co-trained on large-scale robot and visual-text data, have demonstrated notable
progress in general robot control. However, they still fail to achieve
human-level flexibility in interleaved reasoning and interaction. In this work,
introduce EO-Robotics, consists of EO-1 model and EO-Data1.5M dataset. EO-1 is
a unified embodied foundation model that achieves superior performance in
multimodal embodied reasoning and robot control through interleaved
vision-text-action pre-training. The development of EO-1 is based on two key
pillars: (i) a unified architecture that processes multimodal inputs
indiscriminately (image, text, video, and action), and (ii) a massive,
high-quality multimodal embodied reasoning dataset, EO-Data1.5M, which contains
over 1.5 million samples with emphasis on interleaved vision-text-action
comprehension. EO-1 is trained through synergies between auto-regressive
decoding and flow matching denoising on EO-Data1.5M, enabling seamless robot
action generation and multimodal embodied reasoning. Extensive experiments
demonstrate the effectiveness of interleaved vision-text-action learning for
open-world understanding and generalization, validated through a variety of
long-horizon, dexterous manipulation tasks across multiple embodiments. This
paper details the architecture of EO-1, the data construction strategy of
EO-Data1.5M, and the training methodology, offering valuable insights for
developing advanced embodied foundation models.