ACE-Ego-0: Unificando Dados Egocêntricos Humanos e Robóticos para Pré-treinamento VLA

Resumo

Modelos de Visão-Linguagem-Ação (VLA) beneficiam-se de dados corporificados em larga escala e diversos, porém a coleta de trajetórias robóticas é custosa e intensiva em mão de obra. Avanços recentes mostram que vídeos humanos egocêntricos em larga escala fornecem supervisão complementar do mundo real no pré-treinamento. No entanto, o treinamento conjunto em dados humanos e robóticos continua desafiador devido a divergências nos espaços de ação, estruturas de corporificação, dinâmicas temporais e qualidade de supervisão. Apresentamos o ACE-EGO-0, uma estrutura unificada de pré-treinamento VLA que aproveita conjuntamente fontes de dados heterogêneas. Para extrair supervisão de pré-treinamento em larga escala de vídeos humanos egocêntricos, construímos um pipeline escalável de vídeo para ação egocêntrica que converte vídeos humanos brutos em trajetórias de pseudo-ação no formato robótico. Para tornar esses rótulos comparáveis com demonstrações robóticas, o ACE-EGO-0 utiliza uma representação unificada de ação baseada em ações no espaço da câmera, condicionamento morfológico e agrupamento de ações alinhado temporalmente. Para aproveitar robustamente a supervisão de pseudo-ação ruidosa de vídeos humanos egocêntricos, formulamos um objetivo de treinamento ciente de confiabilidade com uma perda auxiliar humana que concentra a supervisão em sinais confiáveis. Instanciamos o ACE-EGO-0 em 4,53 mil horas de dados robóticos e de simulação, juntamente com 1,48 mil horas de dados humanos egocêntricos rotulados com pseudo-ação. Experimentos mostram que a incorporação de supervisão humana em larga escala sob ponderação ciente de confiabilidade melhora consistentemente tanto o pré-treinamento conjunto unificado quanto o ajuste fino supervisionado. O ACE-EGO-0 alcança desempenho estado da arte no RoboCasa GR1 TableTop e RoboTwin 2.0, demonstrando forte transferência para manipulação bimanual no mundo real.

English

Vision-Language-Action (VLA) models benefit from large-scale and diverse embodied data, yet scaling robot trajectory collection is costly and labor-intensive. Recent advances show that large-scale egocentric human videos provide complementary real-world supervision in pretraining. However, joint training on human and robot data remains challenging due to divergences in action spaces, embodiment structures, temporal dynamics, and supervision quality. We introduce ACE-EGO-0, a unified VLA pretraining framework jointly leveraging heterogeneous data sources. To extract large-scale pretraining supervision from egocentric human videos, we build a scalable egocentric video-to-action pipeline that converts raw human videos into robot-format pseudo-action trajectories. To make these labels comparable with robot demonstrations, ACE-EGO-0 uses a unified action representation based on camera-space actions, morphology conditioning, and time-aligned action chunking. To robustly leverage noisy pseudo-action supervision from egocentric human videos, we formulate a reliability-aware training objective with a human auxiliary loss that concentrates supervision on reliable signals. We instantiate ACE-EGO-0 on 4.53K hours of robot and simulation data, together with 1.48K hours of pseudo-action-labeled egocentric human data. Experiments show that incorporating large-scale human supervision under reliability-aware weighting consistently improves both unified joint pretraining and supervised fine-tuning. ACE-EGO-0 achieves state-of-the-art performance on RoboCasa GR1 TableTop and RoboTwin 2.0, while demonstrating strong transfer to real-world bimanual manipulation.