UniT: Hacia un Lenguaje Físico Unificado para el Aprendizaje de Políticas y Modelado del Mundo entre Humanos y Humanoides
UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling
April 21, 2026
Autores: Boyu Chen, Yi Chen, Lu Qiu, Jerry Bai, Yuying Ge, Yixiao Ge
cs.AI
Resumen
La escalabilidad de los modelos fundacionales humanoides se ve limitada por la escasez de datos robóticos. Si bien los datos egocéntricos humanos masivos ofrecen una alternativa escalable, salvar la brecha de encarnación cruzada sigue siendo un desafío fundamental debido a las discrepancias cinemáticas. Presentamos UniT (Tokenizador de Acción Latente Unificado mediante Anclaje Visual), un marco que establece un lenguaje físico unificado para la transferencia de humano a humanoide. Basado en la filosofía de que las cinemáticas heterogéneas comparten consecuencias visuales universales, UniT emplea un mecanismo de reconstrucción cruzada de tres ramas: las acciones predicen la visión para anclar la cinemática a resultados físicos, mientras que la visión reconstruye las acciones para filtrar factores de confusión visual irrelevantes. Simultáneamente, una rama de fusión sinergiza estas modalidades purificadas en un espacio latente discreto compartido de intenciones físicas independientes de la encarnación. Validamos UniT en dos paradigmas: 1) Aprendizaje de Políticas (VLA-UniT): Al predecir estos tokens unificados, aprovecha eficazmente datos humanos diversos para lograr una eficiencia de datos de vanguardia y una generalización robusta fuera de distribución (OOD) tanto en benchmarks de simulación de humanoides como en despliegues del mundo real, demostrando notablemente transferencia de tareas *zero-shot*. 2) Modelado del Mundo (WM-UniT): Al alinear dinámicas de encarnación cruzada mediante tokens unificados como condiciones, logra una transferencia directa de acciones de humano a humanoide. Esta alineación garantiza que los datos humanos se traduzcan sin problemas en una mayor controlabilidad de acciones para la generación de videos de humanoides. En última instancia, al inducir una representación de encarnación cruzada altamente alineada (verificado empíricamente por visualizaciones t-SNE que revelan la convergencia de características humanas y de humanoides en una variedad compartida), UniT ofrece un camino escalable para destilar el vasto conocimiento humano en capacidades humanoides de propósito general.
English
Scaling humanoid foundation models is bottlenecked by the scarcity of robotic data. While massive egocentric human data offers a scalable alternative, bridging the cross-embodiment chasm remains a fundamental challenge due to kinematic mismatches. We introduce UniT (Unified Latent Action Tokenizer via Visual Anchoring), a framework that establishes a unified physical language for human-to-humanoid transfer. Grounded in the philosophy that heterogeneous kinematics share universal visual consequences, UniT employs a tri-branch cross-reconstruction mechanism: actions predict vision to anchor kinematics to physical outcomes, while vision reconstructs actions to filter out irrelevant visual confounders. Concurrently, a fusion branch synergies these purified modalities into a shared discrete latent space of embodiment-agnostic physical intents. We validate UniT across two paradigms: 1) Policy Learning (VLA-UniT): By predicting these unified tokens, it effectively leverages diverse human data to achieve state-of-the-art data efficiency and robust out-of-distribution (OOD) generalization on both humanoid simulation benchmark and real-world deployments, notably demonstrating zero-shot task transfer. 2) World Modeling (WM-UniT): By aligning cross-embodiment dynamics via unified tokens as conditions, it realizes direct human-to-humanoid action transfer. This alignment ensures that human data seamlessly translates into enhanced action controllability for humanoid video generation. Ultimately, by inducing a highly aligned cross-embodiment representation (empirically verified by t-SNE visualizations revealing the convergence of human and humanoid features into a shared manifold), UniT offers a scalable path to distill vast human knowledge into general-purpose humanoid capabilities.