ChatPaper.aiChatPaper

EmbodiedOneVision : Pré-entraînement entrelacé Vision-Texte-Action pour le contrôle général des robots

EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

August 28, 2025
papers.authors: Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang
cs.AI

papers.abstract

La capacité humaine à effectuer de manière fluide un raisonnement multimodal et des interactions physiques dans le monde ouvert constitue un objectif central pour les systèmes intelligents incarnés à usage général. Les récents modèles vision-langage-action (VLA), co-entraînés sur des données robotiques et visuo-textuelles à grande échelle, ont démontré des progrès notables dans le contrôle robotique général. Cependant, ils ne parviennent pas encore à atteindre la flexibilité humaine dans le raisonnement et l'interaction entrelacés. Dans ce travail, nous présentons EO-Robotics, composé du modèle EO-1 et du jeu de données EO-Data1.5M. EO-1 est un modèle de fondation incarné unifié qui obtient des performances supérieures en raisonnement multimodal incarné et en contrôle robotique grâce à un pré-entraînement entrelaçant vision, texte et action. Le développement d'EO-1 repose sur deux piliers clés : (i) une architecture unifiée qui traite les entrées multimodales de manière indiscriminée (image, texte, vidéo et action), et (ii) un jeu de données massif et de haute qualité pour le raisonnement multimodal incarné, EO-Data1.5M, qui contient plus de 1,5 million d'échantillons mettant l'accent sur la compréhension entrelacée vision-texte-action. EO-1 est entraîné grâce à des synergies entre le décodage auto-régressif et le débruitage par correspondance de flux sur EO-Data1.5M, permettant une génération fluide d'actions robotiques et un raisonnement multimodal incarné. Des expériences approfondies démontrent l'efficacité de l'apprentissage entrelaçant vision, texte et action pour la compréhension et la généralisation dans le monde ouvert, validées par une variété de tâches de manipulation dextre à long terme sur plusieurs incarnations. Cet article détaille l'architecture d'EO-1, la stratégie de construction des données d'EO-Data1.5M et la méthodologie d'entraînement, offrant des insights précieux pour le développement de modèles de fondation incarnés avancés.
English
The human ability to seamlessly perform multimodal reasoning and physical interaction in the open world is a core goal for general-purpose embodied intelligent systems. Recent vision-language-action (VLA) models, which are co-trained on large-scale robot and visual-text data, have demonstrated notable progress in general robot control. However, they still fail to achieve human-level flexibility in interleaved reasoning and interaction. In this work, introduce EO-Robotics, consists of EO-1 model and EO-Data1.5M dataset. EO-1 is a unified embodied foundation model that achieves superior performance in multimodal embodied reasoning and robot control through interleaved vision-text-action pre-training. The development of EO-1 is based on two key pillars: (i) a unified architecture that processes multimodal inputs indiscriminately (image, text, video, and action), and (ii) a massive, high-quality multimodal embodied reasoning dataset, EO-Data1.5M, which contains over 1.5 million samples with emphasis on interleaved vision-text-action comprehension. EO-1 is trained through synergies between auto-regressive decoding and flow matching denoising on EO-Data1.5M, enabling seamless robot action generation and multimodal embodied reasoning. Extensive experiments demonstrate the effectiveness of interleaved vision-text-action learning for open-world understanding and generalization, validated through a variety of long-horizon, dexterous manipulation tasks across multiple embodiments. This paper details the architecture of EO-1, the data construction strategy of EO-Data1.5M, and the training methodology, offering valuable insights for developing advanced embodied foundation models.
PDF713September 1, 2025