EmbodiedOneVision: Verflochtenes Vision-Text-Aktion-Pretraining für allgemeine Robotersteuerung
EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control
August 28, 2025
papers.authors: Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang
cs.AI
papers.abstract
Die menschliche Fähigkeit, multimodales Denken und physische Interaktion in der offenen Welt nahtlos auszuführen, ist ein Kernziel für allgemeine, verkörperte intelligente Systeme. Aktuelle Vision-Sprache-Aktion (VLA)-Modelle, die auf groß angelegten Robotik- und visuell-textuellen Daten gemeinsam trainiert werden, haben bemerkenswerte Fortschritte in der allgemeinen Robotersteuerung gezeigt. Dennoch erreichen sie nicht die menschliche Flexibilität bei verschränktem Denken und Interaktion. In dieser Arbeit stellen wir EO-Robotics vor, bestehend aus dem EO-1-Modell und dem EO-Data1.5M-Datensatz. EO-1 ist ein einheitliches, verkörpertes Grundlagenmodell, das durch verschränktes Vision-Text-Aktion-Vortraining überlegene Leistungen in multimodaler verkörperter Denkfähigkeit und Robotersteuerung erzielt. Die Entwicklung von EO-1 basiert auf zwei Schlüsselsäulen: (i) einer einheitlichen Architektur, die multimodale Eingaben (Bild, Text, Video und Aktion) gleichwertig verarbeitet, und (ii) einem massiven, hochwertigen multimodalen verkörperten Denkdatensatz, EO-Data1.5M, der über 1,5 Millionen Proben mit Schwerpunkt auf verschränktem Vision-Text-Aktion-Verständnis enthält. EO-1 wird durch Synergien zwischen autoregressiver Dekodierung und Flow-Matching-Entrauschung auf EO-Data1.5M trainiert, was nahtlose Roboteraktionsgenerierung und multimodales verkörpertes Denken ermöglicht. Umfangreiche Experimente demonstrieren die Wirksamkeit des verschränkten Vision-Text-Aktion-Lernens für das Verständnis und die Generalisierung in der offenen Welt, validiert durch eine Vielzahl von langfristigen, geschickten Manipulationsaufgaben über mehrere Verkörperungen hinweg. Dieses Papier beschreibt detailliert die Architektur von EO-1, die Datenkonstruktionsstrategie von EO-Data1.5M und die Trainingsmethodik und bietet wertvolle Einblicke für die Entwicklung fortschrittlicher verkörperter Grundlagenmodelle.
English
The human ability to seamlessly perform multimodal reasoning and physical
interaction in the open world is a core goal for general-purpose embodied
intelligent systems. Recent vision-language-action (VLA) models, which are
co-trained on large-scale robot and visual-text data, have demonstrated notable
progress in general robot control. However, they still fail to achieve
human-level flexibility in interleaved reasoning and interaction. In this work,
introduce EO-Robotics, consists of EO-1 model and EO-Data1.5M dataset. EO-1 is
a unified embodied foundation model that achieves superior performance in
multimodal embodied reasoning and robot control through interleaved
vision-text-action pre-training. The development of EO-1 is based on two key
pillars: (i) a unified architecture that processes multimodal inputs
indiscriminately (image, text, video, and action), and (ii) a massive,
high-quality multimodal embodied reasoning dataset, EO-Data1.5M, which contains
over 1.5 million samples with emphasis on interleaved vision-text-action
comprehension. EO-1 is trained through synergies between auto-regressive
decoding and flow matching denoising on EO-Data1.5M, enabling seamless robot
action generation and multimodal embodied reasoning. Extensive experiments
demonstrate the effectiveness of interleaved vision-text-action learning for
open-world understanding and generalization, validated through a variety of
long-horizon, dexterous manipulation tasks across multiple embodiments. This
paper details the architecture of EO-1, the data construction strategy of
EO-Data1.5M, and the training methodology, offering valuable insights for
developing advanced embodied foundation models.