EmbodiedOneVision: Pretrenamiento Intercalado de Visión-Texto-Acción para el Control General de Robots
EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control
August 28, 2025
Autores: Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang
cs.AI
Resumen
La capacidad humana para realizar razonamiento multimodal e interacción física de manera fluida en el mundo abierto es un objetivo fundamental para los sistemas inteligentes con propósito general y encarnados. Los modelos recientes de visión-lenguaje-acción (VLA), entrenados conjuntamente con datos a gran escala de robots y datos visuales-textuales, han demostrado avances notables en el control general de robots. Sin embargo, aún no logran alcanzar la flexibilidad a nivel humano en el razonamiento e interacción entrelazados. En este trabajo, presentamos EO-Robotics, que consta del modelo EO-1 y el conjunto de datos EO-Data1.5M. EO-1 es un modelo fundacional encarnado unificado que logra un rendimiento superior en el razonamiento multimodal encarnado y el control de robots mediante un preentrenamiento entrelazado de visión-texto-acción. El desarrollo de EO-1 se basa en dos pilares clave: (i) una arquitectura unificada que procesa entradas multimodales de manera indiscriminada (imágenes, texto, video y acciones), y (ii) un conjunto de datos masivo y de alta calidad para el razonamiento multimodal encarnado, EO-Data1.5M, que contiene más de 1.5 millones de muestras con énfasis en la comprensión entrelazada de visión-texto-acción. EO-1 se entrena mediante sinergias entre la decodificación autorregresiva y la eliminación de ruido mediante emparejamiento de flujo en EO-Data1.5M, lo que permite la generación fluida de acciones robóticas y el razonamiento multimodal encarnado. Experimentos exhaustivos demuestran la efectividad del aprendizaje entrelazado de visión-texto-acción para la comprensión y generalización en el mundo abierto, validado a través de una variedad de tareas de manipulación diestra y de horizonte largo en múltiples encarnaciones. Este artículo detalla la arquitectura de EO-1, la estrategia de construcción de datos de EO-Data1.5M y la metodología de entrenamiento, ofreciendo insights valiosos para el desarrollo de modelos fundacionales encarnados avanzados.
English
The human ability to seamlessly perform multimodal reasoning and physical
interaction in the open world is a core goal for general-purpose embodied
intelligent systems. Recent vision-language-action (VLA) models, which are
co-trained on large-scale robot and visual-text data, have demonstrated notable
progress in general robot control. However, they still fail to achieve
human-level flexibility in interleaved reasoning and interaction. In this work,
introduce EO-Robotics, consists of EO-1 model and EO-Data1.5M dataset. EO-1 is
a unified embodied foundation model that achieves superior performance in
multimodal embodied reasoning and robot control through interleaved
vision-text-action pre-training. The development of EO-1 is based on two key
pillars: (i) a unified architecture that processes multimodal inputs
indiscriminately (image, text, video, and action), and (ii) a massive,
high-quality multimodal embodied reasoning dataset, EO-Data1.5M, which contains
over 1.5 million samples with emphasis on interleaved vision-text-action
comprehension. EO-1 is trained through synergies between auto-regressive
decoding and flow matching denoising on EO-Data1.5M, enabling seamless robot
action generation and multimodal embodied reasoning. Extensive experiments
demonstrate the effectiveness of interleaved vision-text-action learning for
open-world understanding and generalization, validated through a variety of
long-horizon, dexterous manipulation tasks across multiple embodiments. This
paper details the architecture of EO-1, the data construction strategy of
EO-Data1.5M, and the training methodology, offering valuable insights for
developing advanced embodied foundation models.