ACE-Ego-0: Объединение эгоцентрических данных человека и роботов для предварительного обучения VLA

Аннотация

Модели Vision-Language-Action (VLA) выигрывают от масштабных и разнообразных воплощенных данных, однако масштабирование сбора роботизированных траекторий является дорогостоящим и трудоемким. Недавние достижения показывают, что крупномасштабные эгоцентричные видеозаписи человека обеспечивают дополнительное обучение на реальных данных в процессе предварительного обучения. Тем не менее, совместное обучение на человеческих и роботизированных данных остается сложным из-за различий в пространствах действий, структурах воплощения, временной динамике и качестве обучения. Мы представляем ACE-EGO-0, унифицированную структуру предварительного обучения VLA, совместно использующую разнородные источники данных. Для извлечения крупномасштабного обучающего сигнала для предварительного обучения из эгоцентричных видеозаписей человека мы создаем масштабируемый конвейер преобразования эгоцентричного видео в действия, который конвертирует исходные человеческие видео в траектории псевдо-действий в формате робота. Чтобы сделать эти метки сопоставимыми с демонстрациями робота, ACE-EGO-0 использует унифицированное представление действий на основе действий в пространстве камеры, обусловленности морфологией и синхронизированного по времени разбиения действий на фрагменты. Для надежного использования зашумленного обучения на псевдо-действиях из эгоцентричных человеческих видео мы формулируем цель обучения, учитывающую надежность, с вспомогательной человеческой функцией потерь, которая концентрирует обучение на надежных сигналах. Мы реализуем ACE-EGO-0 на 4,53 тыс. часов роботизированных и симуляционных данных, а также на 1,48 тыс. часов эгоцентричных человеческих данных, размеченных псевдо-действиями. Эксперименты показывают, что включение крупномасштабного обучения на человеческих данных с весами, учитывающими надежность, последовательно улучшает как унифицированное совместное предварительное обучение, так и последующую тонкую настройку с учителем. ACE-EGO-0 достигает передовой производительности на RoboCasa GR1 TableTop и RoboTwin 2.0, демонстрируя при этом сильную переносимость на реальную двуручную манипуляцию.

English

Vision-Language-Action (VLA) models benefit from large-scale and diverse embodied data, yet scaling robot trajectory collection is costly and labor-intensive. Recent advances show that large-scale egocentric human videos provide complementary real-world supervision in pretraining. However, joint training on human and robot data remains challenging due to divergences in action spaces, embodiment structures, temporal dynamics, and supervision quality. We introduce ACE-EGO-0, a unified VLA pretraining framework jointly leveraging heterogeneous data sources. To extract large-scale pretraining supervision from egocentric human videos, we build a scalable egocentric video-to-action pipeline that converts raw human videos into robot-format pseudo-action trajectories. To make these labels comparable with robot demonstrations, ACE-EGO-0 uses a unified action representation based on camera-space actions, morphology conditioning, and time-aligned action chunking. To robustly leverage noisy pseudo-action supervision from egocentric human videos, we formulate a reliability-aware training objective with a human auxiliary loss that concentrates supervision on reliable signals. We instantiate ACE-EGO-0 on 4.53K hours of robot and simulation data, together with 1.48K hours of pseudo-action-labeled egocentric human data. Experiments show that incorporating large-scale human supervision under reliability-aware weighting consistently improves both unified joint pretraining and supervised fine-tuning. ACE-EGO-0 achieves state-of-the-art performance on RoboCasa GR1 TableTop and RoboTwin 2.0, while demonstrating strong transfer to real-world bimanual manipulation.