EmbodiedOneVision: Geïntegreerde Visie-Text-Actie Voorafgaande Training voor Algemene Robotbesturing
EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control
August 28, 2025
Auteurs: Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang
cs.AI
Samenvatting
Het menselijk vermogen om naadloos multimodale redenering en fysieke interactie in de open wereld uit te voeren, is een kern doelstelling voor algemene, belichaamde intelligente systemen. Recente vision-language-action (VLA) modellen, die getraind zijn op grootschalige robot- en visueel-tekstgegevens, hebben aanzienlijke vooruitgang geboekt in algemene robotbesturing. Desondanks slagen ze er nog steeds niet in om menselijke flexibiliteit te bereiken in onderling verweven redenering en interactie. In dit werk introduceren we EO-Robotics, bestaande uit het EO-1 model en de EO-Data1.5M dataset. EO-1 is een verenigd belichaamd basis model dat superieure prestaties levert in multimodale belichaamde redenering en robotbesturing door middel van onderling verweven vision-text-action pre-training. De ontwikkeling van EO-1 is gebaseerd op twee belangrijke pijlers: (i) een verenigde architectuur die multimodale invoer zonder onderscheid verwerkt (afbeelding, tekst, video en actie), en (ii) een enorme, hoogwaardige multimodale belichaamde redeneringsdataset, EO-Data1.5M, die meer dan 1,5 miljoen samples bevat met nadruk op onderling verweven vision-text-action begrip. EO-1 wordt getraind door synergieën tussen auto-regressieve decodering en flow matching denoising op EO-Data1.5M, waardoor naadloze robotactiegeneratie en multimodale belichaamde redenering mogelijk worden. Uitgebreide experimenten tonen de effectiviteit aan van onderling verweven vision-text-action leren voor open-wereldbegrip en generalisatie, gevalideerd door een verscheidenheid aan langetermijn, behendige manipulatietaken over meerdere belichamingen. Dit artikel beschrijft in detail de architectuur van EO-1, de dataconstructiestrategie van EO-Data1.5M en de trainingsmethodologie, en biedt waardevolle inzichten voor de ontwikkeling van geavanceerde belichaamde basis modellen.
English
The human ability to seamlessly perform multimodal reasoning and physical
interaction in the open world is a core goal for general-purpose embodied
intelligent systems. Recent vision-language-action (VLA) models, which are
co-trained on large-scale robot and visual-text data, have demonstrated notable
progress in general robot control. However, they still fail to achieve
human-level flexibility in interleaved reasoning and interaction. In this work,
introduce EO-Robotics, consists of EO-1 model and EO-Data1.5M dataset. EO-1 is
a unified embodied foundation model that achieves superior performance in
multimodal embodied reasoning and robot control through interleaved
vision-text-action pre-training. The development of EO-1 is based on two key
pillars: (i) a unified architecture that processes multimodal inputs
indiscriminately (image, text, video, and action), and (ii) a massive,
high-quality multimodal embodied reasoning dataset, EO-Data1.5M, which contains
over 1.5 million samples with emphasis on interleaved vision-text-action
comprehension. EO-1 is trained through synergies between auto-regressive
decoding and flow matching denoising on EO-Data1.5M, enabling seamless robot
action generation and multimodal embodied reasoning. Extensive experiments
demonstrate the effectiveness of interleaved vision-text-action learning for
open-world understanding and generalization, validated through a variety of
long-horizon, dexterous manipulation tasks across multiple embodiments. This
paper details the architecture of EO-1, the data construction strategy of
EO-Data1.5M, and the training methodology, offering valuable insights for
developing advanced embodied foundation models.