EmbodiedOneVision: Pre-addestramento Intervallato Visione-Testo-Azione per il Controllo Generale dei Robot
EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control
August 28, 2025
Autori: Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang
cs.AI
Abstract
La capacità umana di eseguire in modo fluido ragionamenti multimodali e interazioni fisiche nel mondo aperto rappresenta un obiettivo fondamentale per i sistemi intelligenti incarnati a scopo generale. I recenti modelli visione-linguaggio-azione (VLA), co-addestrati su vasti dataset robotici e visivo-testuali, hanno dimostrato progressi significativi nel controllo generale dei robot. Tuttavia, non riescono ancora a raggiungere la flessibilità umana nel ragionamento e nell'interazione intervallati. In questo lavoro, introduciamo EO-Robotics, composto dal modello EO-1 e dal dataset EO-Data1.5M. EO-1 è un modello fondazionale incarnato unificato che raggiunge prestazioni superiori nel ragionamento multimodale incarnato e nel controllo dei robot attraverso un pre-addestramento intervallato visione-testo-azione. Lo sviluppo di EO-1 si basa su due pilastri chiave: (i) un'architettura unificata che elabora in modo indiscriminato input multimodali (immagini, testo, video e azioni), e (ii) un vasto dataset di alta qualità per il ragionamento multimodale incarnato, EO-Data1.5M, che contiene oltre 1,5 milioni di campioni con enfasi sulla comprensione intervallata visione-testo-azione. EO-1 viene addestrato attraverso sinergie tra decodifica auto-regressiva e denoising con flow matching su EO-Data1.5M, consentendo una generazione fluida delle azioni robotiche e un ragionamento multimodale incarnato. Esperimenti estensivi dimostrano l'efficacia dell'apprendimento intervallato visione-testo-azione per la comprensione e la generalizzazione nel mondo aperto, validato attraverso una varietà di compiti di manipolazione dexterous a lungo orizzonte su molteplici incarnazioni. Questo articolo descrive in dettaglio l'architettura di EO-1, la strategia di costruzione dei dati di EO-Data1.5M e la metodologia di addestramento, offrendo spunti preziosi per lo sviluppo di modelli fondazionali incarnati avanzati.
English
The human ability to seamlessly perform multimodal reasoning and physical
interaction in the open world is a core goal for general-purpose embodied
intelligent systems. Recent vision-language-action (VLA) models, which are
co-trained on large-scale robot and visual-text data, have demonstrated notable
progress in general robot control. However, they still fail to achieve
human-level flexibility in interleaved reasoning and interaction. In this work,
introduce EO-Robotics, consists of EO-1 model and EO-Data1.5M dataset. EO-1 is
a unified embodied foundation model that achieves superior performance in
multimodal embodied reasoning and robot control through interleaved
vision-text-action pre-training. The development of EO-1 is based on two key
pillars: (i) a unified architecture that processes multimodal inputs
indiscriminately (image, text, video, and action), and (ii) a massive,
high-quality multimodal embodied reasoning dataset, EO-Data1.5M, which contains
over 1.5 million samples with emphasis on interleaved vision-text-action
comprehension. EO-1 is trained through synergies between auto-regressive
decoding and flow matching denoising on EO-Data1.5M, enabling seamless robot
action generation and multimodal embodied reasoning. Extensive experiments
demonstrate the effectiveness of interleaved vision-text-action learning for
open-world understanding and generalization, validated through a variety of
long-horizon, dexterous manipulation tasks across multiple embodiments. This
paper details the architecture of EO-1, the data construction strategy of
EO-Data1.5M, and the training methodology, offering valuable insights for
developing advanced embodied foundation models.