UniT: Verso un Linguaggio Fisico Unificato per l'Apprendimento di Politiche Uomo-Umanoide e la Modellazione del Mondo

Abstract

Il ridimensionamento dei modelli fondazionali umanoidi è limitato dalla scarsità di dati robotici. Sebbene i dati egocentrici umani massicci offrano un'alternativa scalabile, colmare il divario cross-embodiment rimane una sfida fondamentale a causa delle discrepanze cinematiche. Introduciamo UniT (Unified Latent Action Tokenizer via Visual Anchoring), un framework che stabilisce un linguaggio fisico unificato per il trasferimento da umano a umanoide. Basandosi sul principio che cinematiche eterogenee condividono conseguenze visive universali, UniT utilizza un meccanismo di cross-ricostruzione a tre rami: le azioni predicono la visione per ancorare la cinematica a risultati fisici, mentre la visione ricostruisce le azioni per filtrare i fattori visivi confondenti irrilevanti. Contemporaneamente, un ramo di fusione sinergizza queste modalità purificate in uno spazio latente discreto condiviso di intenzioni fisiche indipendenti dall'embodiment. Convalidiamo UniT in due paradigmi: 1) Apprendimento di Politiche (VLA-UniT): Predicendo questi token unificati, sfrutta efficacemente dati umani diversificati per ottenere un'efficienza dei dati allo stato dell'arte e una robusta generalizzazione fuori distribuzione (OOD) sia su benchmark di simulazione umanoide che su implementazioni nel mondo reale, dimostrando notevolmente il trasferimento zero-shot di compiti. 2) Modellazione del Mondo (WM-UniT): Allineando le dinamiche cross-embodiment tramite i token unificati come condizioni, realizza un trasferimento diretto di azioni da umano a umanoide. Questo allineamento garantisce che i dati umani si traducano perfettamente in una maggiore controllabilità delle azioni per la generazione di video umanoidi. In definitiva, inducendo una rappresentazione cross-embodiment altamente allineata (verificata empiricamente da visualizzazioni t-SNE che rivelano la convergenza di feature umane e umanoidi in una varietà condivisa), UniT offre un percorso scalabile per distillare la vasta conoscenza umana in capacità umanoidi a scopo generale.

English

Scaling humanoid foundation models is bottlenecked by the scarcity of robotic data. While massive egocentric human data offers a scalable alternative, bridging the cross-embodiment chasm remains a fundamental challenge due to kinematic mismatches. We introduce UniT (Unified Latent Action Tokenizer via Visual Anchoring), a framework that establishes a unified physical language for human-to-humanoid transfer. Grounded in the philosophy that heterogeneous kinematics share universal visual consequences, UniT employs a tri-branch cross-reconstruction mechanism: actions predict vision to anchor kinematics to physical outcomes, while vision reconstructs actions to filter out irrelevant visual confounders. Concurrently, a fusion branch synergies these purified modalities into a shared discrete latent space of embodiment-agnostic physical intents. We validate UniT across two paradigms: 1) Policy Learning (VLA-UniT): By predicting these unified tokens, it effectively leverages diverse human data to achieve state-of-the-art data efficiency and robust out-of-distribution (OOD) generalization on both humanoid simulation benchmark and real-world deployments, notably demonstrating zero-shot task transfer. 2) World Modeling (WM-UniT): By aligning cross-embodiment dynamics via unified tokens as conditions, it realizes direct human-to-humanoid action transfer. This alignment ensures that human data seamlessly translates into enhanced action controllability for humanoid video generation. Ultimately, by inducing a highly aligned cross-embodiment representation (empirically verified by t-SNE visualizations revealing the convergence of human and humanoid features into a shared manifold), UniT offers a scalable path to distill vast human knowledge into general-purpose humanoid capabilities.

UniT: Verso un Linguaggio Fisico Unificato per l'Apprendimento di Politiche Uomo-Umanoide e la Modellazione del Mondo

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

Abstract

Support