EmbodiedOneVision: Pré-treinamento Intercalado de Visão-Texto-Ação para Controle Geral de Robôs
EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control
August 28, 2025
Autores: Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang
cs.AI
Resumo
A capacidade humana de realizar raciocínio multimodal e interação física de forma contínua no mundo aberto é um objetivo central para sistemas inteligentes corporificados de propósito geral. Modelos recentes de visão-linguagem-ação (VLA), que são co-treinados em grandes conjuntos de dados robóticos e visuais-textuais, demonstraram progressos notáveis no controle geral de robôs. No entanto, eles ainda não alcançam a flexibilidade em nível humano no raciocínio e interação intercalados. Neste trabalho, apresentamos a EO-Robotics, composta pelo modelo EO-1 e pelo conjunto de dados EO-Data1.5M. O EO-1 é um modelo de base corporificado unificado que alcança desempenho superior no raciocínio multimodal corporificado e no controle de robôs por meio de pré-treinamento intercalado de visão-texto-ação. O desenvolvimento do EO-1 é baseado em dois pilares principais: (i) uma arquitetura unificada que processa entradas multimodais de forma indiscriminada (imagem, texto, vídeo e ação), e (ii) um conjunto de dados massivo e de alta qualidade para raciocínio multimodal corporificado, o EO-Data1.5M, que contém mais de 1,5 milhão de amostras com ênfase na compreensão intercalada de visão-texto-ação. O EO-1 é treinado por meio de sinergias entre decodagem autorregressiva e denoising por correspondência de fluxo no EO-Data1.5M, permitindo a geração contínua de ações robóticas e o raciocínio multimodal corporificado. Experimentos extensivos demonstram a eficácia do aprendizado intercalado de visão-texto-ação para a compreensão e generalização no mundo aberto, validada por meio de uma variedade de tarefas de manipulação hábil e de longo horizonte em múltiplas corporificações. Este artigo detalha a arquitetura do EO-1, a estratégia de construção de dados do EO-Data1.5M e a metodologia de treinamento, oferecendo insights valiosos para o desenvolvimento de modelos de base corporificados avançados.
English
The human ability to seamlessly perform multimodal reasoning and physical
interaction in the open world is a core goal for general-purpose embodied
intelligent systems. Recent vision-language-action (VLA) models, which are
co-trained on large-scale robot and visual-text data, have demonstrated notable
progress in general robot control. However, they still fail to achieve
human-level flexibility in interleaved reasoning and interaction. In this work,
introduce EO-Robotics, consists of EO-1 model and EO-Data1.5M dataset. EO-1 is
a unified embodied foundation model that achieves superior performance in
multimodal embodied reasoning and robot control through interleaved
vision-text-action pre-training. The development of EO-1 is based on two key
pillars: (i) a unified architecture that processes multimodal inputs
indiscriminately (image, text, video, and action), and (ii) a massive,
high-quality multimodal embodied reasoning dataset, EO-Data1.5M, which contains
over 1.5 million samples with emphasis on interleaved vision-text-action
comprehension. EO-1 is trained through synergies between auto-regressive
decoding and flow matching denoising on EO-Data1.5M, enabling seamless robot
action generation and multimodal embodied reasoning. Extensive experiments
demonstrate the effectiveness of interleaved vision-text-action learning for
open-world understanding and generalization, validated through a variety of
long-horizon, dexterous manipulation tasks across multiple embodiments. This
paper details the architecture of EO-1, the data construction strategy of
EO-Data1.5M, and the training methodology, offering valuable insights for
developing advanced embodied foundation models.