ACE-Ego-0 : Unification des données humaines et robotiques égocentriques pour le pré-entraînement VLA

Résumé

Les modèles Vision-Langage-Action (VLA) bénéficient de données incarnées à grande échelle et diversifiées, mais la collecte de trajectoires robotiques est coûteuse et exigeante en main-d'œuvre. Des avancées récentes montrent que les vidéos humaines égocentriques à grande échelle offrent une supervision complémentaire issue du monde réel pour le pré-entraînement. Cependant, l'entraînement conjoint sur des données humaines et robotiques reste difficile en raison des divergences dans les espaces d'action, les structures d'incarnation, les dynamiques temporelles et la qualité de la supervision. Nous présentons ACE-EGO-0, un cadre unifié de pré-entraînement VLA exploitant conjointement des sources de données hétérogènes. Pour extraire une supervision de pré-entraînement à grande échelle à partir de vidéos humaines égocentriques, nous construisons un pipeline scalable de conversion vidéo égocentrique en action, qui transforme les vidéos humaines brutes en trajectoires d'actions pseudo-robotiques au format robotique. Afin de rendre ces étiquettes comparables aux démonstrations robotiques, ACE-EGO-0 utilise une représentation d'action unifiée basée sur des actions dans l'espace caméra, un conditionnement morphologique et un découpage d'actions aligné temporellement. Pour exploiter robustement la supervision par pseudo-actions bruitées provenant de vidéos humaines égocentriques, nous formulons un objectif d'entraînement tenant compte de la fiabilité, avec une perte auxiliaire humaine qui concentre la supervision sur les signaux fiables. Nous instancions ACE-EGO-0 sur 4,53 milliers d'heures de données robotiques et de simulation, ainsi que sur 1,48 milliers d'heures de données humaines égocentriques étiquetées par pseudo-actions. Les expériences montrent que l'intégration d'une supervision humaine à grande échelle avec une pondération tenant compte de la fiabilité améliore de manière cohérente à la fois le pré-entraînement conjoint unifié et l'ajustement supervisé. ACE-EGO-0 atteint des performances de pointe sur RoboCasa GR1 TableTop et RoboTwin 2.0, tout en démontrant une forte transférabilité à la manipulation bimanuelle réelle.

English

Vision-Language-Action (VLA) models benefit from large-scale and diverse embodied data, yet scaling robot trajectory collection is costly and labor-intensive. Recent advances show that large-scale egocentric human videos provide complementary real-world supervision in pretraining. However, joint training on human and robot data remains challenging due to divergences in action spaces, embodiment structures, temporal dynamics, and supervision quality. We introduce ACE-EGO-0, a unified VLA pretraining framework jointly leveraging heterogeneous data sources. To extract large-scale pretraining supervision from egocentric human videos, we build a scalable egocentric video-to-action pipeline that converts raw human videos into robot-format pseudo-action trajectories. To make these labels comparable with robot demonstrations, ACE-EGO-0 uses a unified action representation based on camera-space actions, morphology conditioning, and time-aligned action chunking. To robustly leverage noisy pseudo-action supervision from egocentric human videos, we formulate a reliability-aware training objective with a human auxiliary loss that concentrates supervision on reliable signals. We instantiate ACE-EGO-0 on 4.53K hours of robot and simulation data, together with 1.48K hours of pseudo-action-labeled egocentric human data. Experiments show that incorporating large-scale human supervision under reliability-aware weighting consistently improves both unified joint pretraining and supervised fine-tuning. ACE-EGO-0 achieves state-of-the-art performance on RoboCasa GR1 TableTop and RoboTwin 2.0, while demonstrating strong transfer to real-world bimanual manipulation.