UniT: Op weg naar een verenigde fysieke taal voor mens-naar-humanoïde beleidsleren en wereldmodellering

Samenvatting

De schaalvergroting van humanoïde fundamentmodellen wordt beperkt door de schaarste aan robotgegevens. Hoewel massale egocentrische menselijke data een schaalbare oplossing biedt, blijft het overbruggen van de kloof tussen verschillende belichamingen een fundamentele uitdaging vanwege kinematische verschillen. Wij introduceren UniT (Unified Latent Action Tokenizer via Visual Anchoring), een raamwerk dat een verenigde fysieke taal creëert voor overdracht van mens naar humanoïde. Gebaseerd op de filosofie dat heterogene kinematica universele visuele gevolgen delen, gebruikt UniT een tri-vertakkend kruisreconstructiemechanisme: acties voorspellen visie om kinematica te verankeren aan fysieke uitkomsten, terwijl visie acties reconstrueert om irrelevante visuele verstorende factoren uit te filteren. Tegelijkertijd integreert een fusievertakking deze gezuiverde modaliteiten in een gedeelde discrete latente ruimte van belichamings-agnostische fysieke intenties. Wij valideren UniT in twee paradigma's: 1) Beleidsleren (VLA-UniT): Door deze verenigde tokens te voorspellen, benut het effectief diverse menselijke data om state-of-the-art data-efficiëntie en robuuste generalisatie buiten de verdeling te bereiken op zowel een humanoïde simulatiebenchmark als echte implementaties, waarbij het opmerkelijk genoeg zero-shot taakoverdracht demonstreert. 2) Wereldmodellering (WM-UniT): Door dynamica tussen belichamingen uit te lijnen via verenigde tokens als condities, realiseert het directe actieoverdracht van mens naar humanoïde. Deze uitlijning zorgt ervoor dat menselijke data naadloos vertaalt naar verbeterde actiebestuurbaarheid voor humanoïde videogeneratie. Uiteindelijk biedt UniT, door een sterk uitgelijnde representatie over belichamingen te induceren (empirisch geverifieerd door t-SNE-visualisaties die de convergentie van menselijke en humanoïde kenmerken in een gedeelde variëteit aantonen), een schaalbare weg om uitgebreide menselijke kennis te destilleren tot algemene humanoïde capaciteiten.

English

Scaling humanoid foundation models is bottlenecked by the scarcity of robotic data. While massive egocentric human data offers a scalable alternative, bridging the cross-embodiment chasm remains a fundamental challenge due to kinematic mismatches. We introduce UniT (Unified Latent Action Tokenizer via Visual Anchoring), a framework that establishes a unified physical language for human-to-humanoid transfer. Grounded in the philosophy that heterogeneous kinematics share universal visual consequences, UniT employs a tri-branch cross-reconstruction mechanism: actions predict vision to anchor kinematics to physical outcomes, while vision reconstructs actions to filter out irrelevant visual confounders. Concurrently, a fusion branch synergies these purified modalities into a shared discrete latent space of embodiment-agnostic physical intents. We validate UniT across two paradigms: 1) Policy Learning (VLA-UniT): By predicting these unified tokens, it effectively leverages diverse human data to achieve state-of-the-art data efficiency and robust out-of-distribution (OOD) generalization on both humanoid simulation benchmark and real-world deployments, notably demonstrating zero-shot task transfer. 2) World Modeling (WM-UniT): By aligning cross-embodiment dynamics via unified tokens as conditions, it realizes direct human-to-humanoid action transfer. This alignment ensures that human data seamlessly translates into enhanced action controllability for humanoid video generation. Ultimately, by inducing a highly aligned cross-embodiment representation (empirically verified by t-SNE visualizations revealing the convergence of human and humanoid features into a shared manifold), UniT offers a scalable path to distill vast human knowledge into general-purpose humanoid capabilities.

UniT: Op weg naar een verenigde fysieke taal voor mens-naar-humanoïde beleidsleren en wereldmodellering

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

Samenvatting

Support