ACE-Ego-0: Vereinheitlichung von egozentrischen menschlichen und Roboter-Daten für das VLA-Vortraining

Zusammenfassung

Vision-Language-Action-Modelle (VLA-Modelle) profitieren von umfangreichen und vielfältigen verkörperten Daten, jedoch ist die Sammlung von Robotertrajektorien kostspielig und arbeitsintensiv. Jüngste Fortschritte zeigen, dass großflächige egozentrische menschliche Videos komplementäre Überwachung aus der realen Welt beim Vortraining liefern. Allerdings bleibt das gemeinsame Training auf menschlichen und Roboterdaten aufgrund von Abweichungen in Aktionsräumen, Verkörperungsstrukturen, zeitlichen Dynamiken und Überwachungsqualität herausfordernd. Wir stellen ACE-EGO-0 vor, ein einheitliches VLA-Vortrainingsframework, das heterogene Datenquellen gemeinsam nutzt. Um eine großflächige Vortrainingsüberwachung aus egozentrischen menschlichen Videos zu extrahieren, bauen wir eine skalierbare egozentrische Video-zu-Aktion-Pipeline auf, die rohe menschliche Videos in Pseudoaktions-Trajektorien im Roboterformat umwandelt. Um diese Labels mit Roboterdemonstrationen vergleichbar zu machen, verwendet ACE-EGO-0 eine einheitliche Aktionsrepräsentation, die auf kamera-basierten Aktionen, Morphologie-Konditionierung und zeitlich ausgerichtetem Aktions-Chunking basiert. Um die verrauschte Pseudoaktions-Überwachung aus egozentrischen menschlichen Videos robust zu nutzen, formulieren wir ein zuverlässigkeitsbewusstes Trainingsziel mit einem menschlichen Hilfsverlust, der die Überwachung auf zuverlässige Signale konzentriert. Wir instanziieren ACE-EGO-0 auf 4.530 Stunden Roboter- und Simulationsdaten sowie auf 1.480 Stunden mit Pseudoaktionslabels versehenen egozentrischen menschlichen Daten. Experimente zeigen, dass die Einbeziehung großflächiger menschlicher Überwachung unter zuverlässigkeitsbewusster Gewichtung sowohl das einheitliche gemeinsame Vortraining als auch das überwachte Feintuning konsistent verbessert. ACE-EGO-0 erzielt eine Spitzenleistung auf RoboCasa GR1 TableTop und RoboTwin 2.0 und demonstriert eine starke Übertragbarkeit auf reale bimanuelle Manipulationen.

English

Vision-Language-Action (VLA) models benefit from large-scale and diverse embodied data, yet scaling robot trajectory collection is costly and labor-intensive. Recent advances show that large-scale egocentric human videos provide complementary real-world supervision in pretraining. However, joint training on human and robot data remains challenging due to divergences in action spaces, embodiment structures, temporal dynamics, and supervision quality. We introduce ACE-EGO-0, a unified VLA pretraining framework jointly leveraging heterogeneous data sources. To extract large-scale pretraining supervision from egocentric human videos, we build a scalable egocentric video-to-action pipeline that converts raw human videos into robot-format pseudo-action trajectories. To make these labels comparable with robot demonstrations, ACE-EGO-0 uses a unified action representation based on camera-space actions, morphology conditioning, and time-aligned action chunking. To robustly leverage noisy pseudo-action supervision from egocentric human videos, we formulate a reliability-aware training objective with a human auxiliary loss that concentrates supervision on reliable signals. We instantiate ACE-EGO-0 on 4.53K hours of robot and simulation data, together with 1.48K hours of pseudo-action-labeled egocentric human data. Experiments show that incorporating large-scale human supervision under reliability-aware weighting consistently improves both unified joint pretraining and supervised fine-tuning. ACE-EGO-0 achieves state-of-the-art performance on RoboCasa GR1 TableTop and RoboTwin 2.0, while demonstrating strong transfer to real-world bimanual manipulation.