UniT : Vers un langage physique unifié pour l'apprentissage de politiques et la modélisation du monde entre humains et humanoïdes
UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling
April 21, 2026
Auteurs: Boyu Chen, Yi Chen, Lu Qiu, Jerry Bai, Yuying Ge, Yixiao Ge
cs.AI
Résumé
La mise à l'échelle des modèles de fondation humanoïdes est limitée par la rareté des données robotiques. Bien que les données égocentriques humaines massives offrent une alternative évolutive, combler le fossé de l'incarnation croisée reste un défi fondamental en raison des incompatibilités cinématiques. Nous présentons UniT (Unified Latent Action Tokenizer via Visual Anchoring), un cadre qui établit un langage physique unifié pour le transfert humain-humanoïde. Fondé sur le principe que les cinématiques hétérogènes partagent des conséquences visuelles universelles, UniT utilise un mécanisme de reconstruction croisée à trois branches : les actions prédisent la vision pour ancrer la cinématique aux résultats physiques, tandis que la vision reconstruit les actions pour filtrer les facteurs visuels parasites non pertinents. Parallèlement, une branche de fusion combine ces modalités purifiées dans un espace latent discret partagé d'intentions physiques indépendantes de l'incarnation. Nous validons UniT selon deux paradigmes : 1) Apprentissage de Politique (VLA-UniT) : En prédisant ces tokens unifiés, il exploite efficacement des données humaines diverses pour atteindre une efficacité data state-of-the-art et une robuste généralisation hors-distribution (OOD) sur un benchmark de simulation humanoïde et des déploiements réels, démontrant notamment un transfert de tâche zero-shot. 2) Modélisation du Monde (WM-UniT) : En alignant la dynamique d'incarnation croisée via les tokens unifiés comme conditions, il réalise un transfert d'action direct humain-humanoïde. Cet alignement garantit que les données humaines se traduisent de manière transparente par une contrôlabilité d'action améliorée pour la génération de vidéos humanoïdes. Finalement, en induisant une représentation d'incarnation croisée hautement alignée (vérifiée empiriquement par des visualisations t-SNE révélant la convergence des caractéristiques humaines et humanoïdes dans une variété partagée), UniT offre une voie évolutive pour distiller le vaste savoir humain en capacités humanoïdes généralistes.
English
Scaling humanoid foundation models is bottlenecked by the scarcity of robotic data. While massive egocentric human data offers a scalable alternative, bridging the cross-embodiment chasm remains a fundamental challenge due to kinematic mismatches. We introduce UniT (Unified Latent Action Tokenizer via Visual Anchoring), a framework that establishes a unified physical language for human-to-humanoid transfer. Grounded in the philosophy that heterogeneous kinematics share universal visual consequences, UniT employs a tri-branch cross-reconstruction mechanism: actions predict vision to anchor kinematics to physical outcomes, while vision reconstructs actions to filter out irrelevant visual confounders. Concurrently, a fusion branch synergies these purified modalities into a shared discrete latent space of embodiment-agnostic physical intents. We validate UniT across two paradigms: 1) Policy Learning (VLA-UniT): By predicting these unified tokens, it effectively leverages diverse human data to achieve state-of-the-art data efficiency and robust out-of-distribution (OOD) generalization on both humanoid simulation benchmark and real-world deployments, notably demonstrating zero-shot task transfer. 2) World Modeling (WM-UniT): By aligning cross-embodiment dynamics via unified tokens as conditions, it realizes direct human-to-humanoid action transfer. This alignment ensures that human data seamlessly translates into enhanced action controllability for humanoid video generation. Ultimately, by inducing a highly aligned cross-embodiment representation (empirically verified by t-SNE visualizations revealing the convergence of human and humanoid features into a shared manifold), UniT offers a scalable path to distill vast human knowledge into general-purpose humanoid capabilities.