UniT: К единому физическому языку для обучения стратегиям взаимодействия человека и гуманоида и моделирования мира

Аннотация

Масштабирование фулдационных моделей гуманоидных роботов ограничено дефицитом роботизированных данных. Хотя массивные эгоцентричные данные о движениях человека предлагают масштабируемую альтернативу, преодоление межэмбодиментного разрыва остаётся фундаментальной проблемой из-за кинематических несоответствий. Мы представляем UniT (Унифицированный латентный токенизатор действий через визуальное привязывание) — фреймворк, создающий унифицированный физический язык для переноса навыков от человека к гуманоиду. Основываясь на философии, что разнородная кинематика имеет универсальные визуальные следствия, UniT использует трёхканальный механизм кросс-реконструкции: действия предсказывают зрение для привязки кинематики к физическим результатам, а зрение реконструирует действия для фильтрации нерелевантных визуальных помех. Параллельно фьюжн-канал объединяет эти очищенные модальности в общее дискретное латентное пространство эмбодимент-независимых физических интенций. Мы проверяем UniT в двух парадигмах: 1) Обучение политик (VLA-UniT): прогнозируя эти унифицированные токены, метод эффективно использует разнородные человеческие данные, достигая рекордной данных-эффективности и устойчивого обобщения на внераспределённых (OOD) данных в симуляционных бенчмарках гуманоидов и реальных развёртываниях, демонстрируя трансфер задач с нулевым примером. 2) Моделирование мира (WM-UniT): выравнивая межэмбодиментную динамику через унифицированные токены как условия, метод реализует прямой трансфер действий от человека к гуманоиду. Это выравнивание гарантирует, что человеческие данные бесшовно преобразуются в улучшенную управляемость действий для генерации видео с гуманоидами. В итоге, создавая высоко выровненное межэмбодиментное представление (эмпирически подтверждённое визуализациями t-SNE, показывающими схождение признаков человека и гуманоида в общее многообразие), UniT предлагает масштабируемый путь для дистилляции обширных человеческих знаний в универсальные гуманоидные способности.

English

Scaling humanoid foundation models is bottlenecked by the scarcity of robotic data. While massive egocentric human data offers a scalable alternative, bridging the cross-embodiment chasm remains a fundamental challenge due to kinematic mismatches. We introduce UniT (Unified Latent Action Tokenizer via Visual Anchoring), a framework that establishes a unified physical language for human-to-humanoid transfer. Grounded in the philosophy that heterogeneous kinematics share universal visual consequences, UniT employs a tri-branch cross-reconstruction mechanism: actions predict vision to anchor kinematics to physical outcomes, while vision reconstructs actions to filter out irrelevant visual confounders. Concurrently, a fusion branch synergies these purified modalities into a shared discrete latent space of embodiment-agnostic physical intents. We validate UniT across two paradigms: 1) Policy Learning (VLA-UniT): By predicting these unified tokens, it effectively leverages diverse human data to achieve state-of-the-art data efficiency and robust out-of-distribution (OOD) generalization on both humanoid simulation benchmark and real-world deployments, notably demonstrating zero-shot task transfer. 2) World Modeling (WM-UniT): By aligning cross-embodiment dynamics via unified tokens as conditions, it realizes direct human-to-humanoid action transfer. This alignment ensures that human data seamlessly translates into enhanced action controllability for humanoid video generation. Ultimately, by inducing a highly aligned cross-embodiment representation (empirically verified by t-SNE visualizations revealing the convergence of human and humanoid features into a shared manifold), UniT offers a scalable path to distill vast human knowledge into general-purpose humanoid capabilities.

UniT: К единому физическому языку для обучения стратегиям взаимодействия человека и гуманоида и моделирования мира

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

Аннотация

Support