UniT: Auf dem Weg zu einer einheitlichen physikalischen Sprache für die Politikvermittlung zwischen Mensch und Humanoid sowie die Weltmodellierung

Zusammenfassung

Die Skalierung humanoiden Grundlagenmodelle wird durch die Knappheit robotischer Daten begrenzt. Während massive egocentrische Humanoiden-Daten eine skalierbare Alternative bieten, bleibt die Überbrückung des Cross-Embodiment-Grabens aufgrund kinematischer Disparitäten eine grundlegende Herausforderung. Wir stellen UniT (Unified Latent Action Tokenizer via Visual Anchoring) vor – ein Framework, das eine einheitliche physikalische Sprache für den Human-to-Humanoid-Transfer etabliert. Basierend auf der Prämisse, dass heterogene Kinematiken universelle visuelle Konsequenzen teilen, nutzt UniT einen tri-modalen Kreuzrekonstruktionsmechanismus: Aktionen sagen Vision voraus, um Kinematik an physikalische Ergebnisse zu binden, während Vision Aktionen rekonstruiert, um irrelevante visuelle Störfaktoren herauszufiltern. Parallel fusioniert ein dritter Zweig diese gereinigten Modalitäten zu einem gemeinsamen diskreten Latentraum von embodiment-unabhängigen physikalischen Intentionen. Wir validieren UniT in zwei Paradigmen: 1) Policy-Lernen (VLA-UniT): Durch Prädiktion dieser vereinheitlichten Tokens nutzt es diverse Human-Daten effektiv, um state-of-the-art Dateneffizienz und robuste Out-of-Distribution (OOD)-Generalisierung in Humanoid-Simulationsbenchmarks und Realwelt-Einsätzen zu erreichen, einschließlich Zero-Shot-Aufgabenübertragung. 2) Weltmodellierung (WM-UniT): Durch Ausrichtung cross-embodiment-Dynamiken via vereinheitlichter Tokens als Konditionierung realisiert es direkten Human-to-Humanoid-Aktionstransfer. Diese Alignment gewährleistet, dass Human-Daten nahtlos in verbesserte Aktionssteuerbarkeit für Humanoid-Videogenerierung übersetzt werden. Letztlich bietet UniT – durch Induktion hochgradig alignierter Cross-Embodiment-Repräsentationen (empirisch verifiziert durch t-SNE-Visualisierungen, die Konvergenz humaner und humanoider Features in einen gemeinsamen Mannigfaltigkeitsraum zeigen) – einen skalierbaren Pfad, um umfangreiches menschliches Wissen in allgemeine humanoide Fähigkeiten zu destillieren.

English

Scaling humanoid foundation models is bottlenecked by the scarcity of robotic data. While massive egocentric human data offers a scalable alternative, bridging the cross-embodiment chasm remains a fundamental challenge due to kinematic mismatches. We introduce UniT (Unified Latent Action Tokenizer via Visual Anchoring), a framework that establishes a unified physical language for human-to-humanoid transfer. Grounded in the philosophy that heterogeneous kinematics share universal visual consequences, UniT employs a tri-branch cross-reconstruction mechanism: actions predict vision to anchor kinematics to physical outcomes, while vision reconstructs actions to filter out irrelevant visual confounders. Concurrently, a fusion branch synergies these purified modalities into a shared discrete latent space of embodiment-agnostic physical intents. We validate UniT across two paradigms: 1) Policy Learning (VLA-UniT): By predicting these unified tokens, it effectively leverages diverse human data to achieve state-of-the-art data efficiency and robust out-of-distribution (OOD) generalization on both humanoid simulation benchmark and real-world deployments, notably demonstrating zero-shot task transfer. 2) World Modeling (WM-UniT): By aligning cross-embodiment dynamics via unified tokens as conditions, it realizes direct human-to-humanoid action transfer. This alignment ensures that human data seamlessly translates into enhanced action controllability for humanoid video generation. Ultimately, by inducing a highly aligned cross-embodiment representation (empirically verified by t-SNE visualizations revealing the convergence of human and humanoid features into a shared manifold), UniT offers a scalable path to distill vast human knowledge into general-purpose humanoid capabilities.

UniT: Auf dem Weg zu einer einheitlichen physikalischen Sprache für die Politikvermittlung zwischen Mensch und Humanoid sowie die Weltmodellierung

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

Zusammenfassung

Support