ACE-Ego-0: Unificando Datos Egocéntricos Humanos y Robóticos para el Preentrenamiento de VLA

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) se benefician de datos encarnados a gran escala y diversos, pero la recolección de trayectorias robóticas es costosa y requiere mucho trabajo. Avances recientes muestran que los videos humanos egocéntricos a gran escala proporcionan supervisión complementaria del mundo real en el preentrenamiento. Sin embargo, el entrenamiento conjunto con datos humanos y robóticos sigue siendo un desafío debido a divergencias en los espacios de acción, las estructuras de encarnación, las dinámicas temporales y la calidad de la supervisión. Presentamos ACE-EGO-0, un marco unificado de preentrenamiento VLA que aprovecha conjuntamente fuentes de datos heterogéneas. Para extraer supervisión de preentrenamiento a gran escala de videos humanos egocéntricos, construimos un pipeline escalable de video a acción egocéntrica que convierte videos humanos sin procesar en trayectorias de pseudoacción en formato robótico. Para que estas etiquetas sean comparables con las demostraciones robóticas, ACE-EGO-0 utiliza una representación de acción unificada basada en acciones en el espacio de la cámara, condicionamiento morfológico y fragmentación de acciones alineadas temporalmente. Para aprovechar de manera robusta la supervisión de pseudoacción ruidosa de los videos humanos egocéntricos, formulamos un objetivo de entrenamiento consciente de la fiabilidad con una pérdida auxiliar humana que concentra la supervisión en señales fiables. Instanciamos ACE-EGO-0 en 4.53K horas de datos robóticos y de simulación, junto con 1.48K horas de datos humanos egocéntricos etiquetados con pseudoacción. Los experimentos muestran que incorporar supervisión humana a gran escala bajo ponderación consciente de la fiabilidad mejora consistentemente tanto el preentrenamiento conjunto unificado como el ajuste fino supervisado. ACE-EGO-0 alcanza un rendimiento de última generación en RoboCasa GR1 TableTop y RoboTwin 2.0, demostrando una fuerte transferencia a la manipulación bimanual en el mundo real.

English

Vision-Language-Action (VLA) models benefit from large-scale and diverse embodied data, yet scaling robot trajectory collection is costly and labor-intensive. Recent advances show that large-scale egocentric human videos provide complementary real-world supervision in pretraining. However, joint training on human and robot data remains challenging due to divergences in action spaces, embodiment structures, temporal dynamics, and supervision quality. We introduce ACE-EGO-0, a unified VLA pretraining framework jointly leveraging heterogeneous data sources. To extract large-scale pretraining supervision from egocentric human videos, we build a scalable egocentric video-to-action pipeline that converts raw human videos into robot-format pseudo-action trajectories. To make these labels comparable with robot demonstrations, ACE-EGO-0 uses a unified action representation based on camera-space actions, morphology conditioning, and time-aligned action chunking. To robustly leverage noisy pseudo-action supervision from egocentric human videos, we formulate a reliability-aware training objective with a human auxiliary loss that concentrates supervision on reliable signals. We instantiate ACE-EGO-0 on 4.53K hours of robot and simulation data, together with 1.48K hours of pseudo-action-labeled egocentric human data. Experiments show that incorporating large-scale human supervision under reliability-aware weighting consistently improves both unified joint pretraining and supervised fine-tuning. ACE-EGO-0 achieves state-of-the-art performance on RoboCasa GR1 TableTop and RoboTwin 2.0, while demonstrating strong transfer to real-world bimanual manipulation.