EmbodiedOneVision: Pré-treinamento Intercalado de Visão-Texto-Ação para Controle Geral de Robôs

Resumo

A capacidade humana de realizar raciocínio multimodal e interação física de forma contínua no mundo aberto é um objetivo central para sistemas inteligentes corporificados de propósito geral. Modelos recentes de visão-linguagem-ação (VLA), que são co-treinados em grandes conjuntos de dados robóticos e visuais-textuais, demonstraram progressos notáveis no controle geral de robôs. No entanto, eles ainda não alcançam a flexibilidade em nível humano no raciocínio e interação intercalados. Neste trabalho, apresentamos a EO-Robotics, composta pelo modelo EO-1 e pelo conjunto de dados EO-Data1.5M. O EO-1 é um modelo de base corporificado unificado que alcança desempenho superior no raciocínio multimodal corporificado e no controle de robôs por meio de pré-treinamento intercalado de visão-texto-ação. O desenvolvimento do EO-1 é baseado em dois pilares principais: (i) uma arquitetura unificada que processa entradas multimodais de forma indiscriminada (imagem, texto, vídeo e ação), e (ii) um conjunto de dados massivo e de alta qualidade para raciocínio multimodal corporificado, o EO-Data1.5M, que contém mais de 1,5 milhão de amostras com ênfase na compreensão intercalada de visão-texto-ação. O EO-1 é treinado por meio de sinergias entre decodagem autorregressiva e denoising por correspondência de fluxo no EO-Data1.5M, permitindo a geração contínua de ações robóticas e o raciocínio multimodal corporificado. Experimentos extensivos demonstram a eficácia do aprendizado intercalado de visão-texto-ação para a compreensão e generalização no mundo aberto, validada por meio de uma variedade de tarefas de manipulação hábil e de longo horizonte em múltiplas corporificações. Este artigo detalha a arquitetura do EO-1, a estratégia de construção de dados do EO-Data1.5M e a metodologia de treinamento, oferecendo insights valiosos para o desenvolvimento de modelos de base corporificados avançados.

English

The human ability to seamlessly perform multimodal reasoning and physical interaction in the open world is a core goal for general-purpose embodied intelligent systems. Recent vision-language-action (VLA) models, which are co-trained on large-scale robot and visual-text data, have demonstrated notable progress in general robot control. However, they still fail to achieve human-level flexibility in interleaved reasoning and interaction. In this work, introduce EO-Robotics, consists of EO-1 model and EO-Data1.5M dataset. EO-1 is a unified embodied foundation model that achieves superior performance in multimodal embodied reasoning and robot control through interleaved vision-text-action pre-training. The development of EO-1 is based on two key pillars: (i) a unified architecture that processes multimodal inputs indiscriminately (image, text, video, and action), and (ii) a massive, high-quality multimodal embodied reasoning dataset, EO-Data1.5M, which contains over 1.5 million samples with emphasis on interleaved vision-text-action comprehension. EO-1 is trained through synergies between auto-regressive decoding and flow matching denoising on EO-Data1.5M, enabling seamless robot action generation and multimodal embodied reasoning. Extensive experiments demonstrate the effectiveness of interleaved vision-text-action learning for open-world understanding and generalization, validated through a variety of long-horizon, dexterous manipulation tasks across multiple embodiments. This paper details the architecture of EO-1, the data construction strategy of EO-Data1.5M, and the training methodology, offering valuable insights for developing advanced embodied foundation models.

EmbodiedOneVision: Pré-treinamento Intercalado de Visão-Texto-Ação para Controle Geral de Robôs

EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

Resumo

Support