UniT: Rumo a uma Linguagem Física Unificada para Aprendizado de Políticas Humano-Humanoide e Modelagem do Mundo
UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling
April 21, 2026
Autores: Boyu Chen, Yi Chen, Lu Qiu, Jerry Bai, Yuying Ge, Yixiao Ge
cs.AI
Resumo
A escalabilidade de modelos base para humanoides é limitada pela escassez de dados robóticos. Embora dados maciços de egocentrismo humano ofereçam uma alternativa escalável, superar o abismo de incorporação cruzada permanece um desafio fundamental devido a incompatibilidades cinemáticas. Apresentamos o UniT (Tokenizador de Ação Latente Unificado via Ancoragem Visual), uma estrutura que estabelece uma linguagem física unificada para transferência humano-humanoide. Fundamentado na filosofia de que cinemáticas heterogêneas compartilham consequências visuais universais, o UniT emprega um mecanismo de reconstrução cruzada triplo: ações preveem visão para ancorar cinemática a resultados físicos, enquanto visão reconstrói ações para filtrar confundidores visuais irrelevantes. Simultaneamente, um ramo de fusão sinergiza essas modalidades purificadas em um espaço latente discreto compartilhado de intenções físicas independentes da incorporação. Validamos o UniT em dois paradigmas: 1) Aprendizado de Políticas (VLA-UniT): Ao prever esses tokens unificados, ele aproveita efetivamente dados humanos diversos para alcançar eficiência de dados state-of-the-art e generalização robusta fora da distribuição (OOD) em benchmark de simulação de humanoide e implantações no mundo real, demonstrando notavelmente transferência de tarefa zero-shot. 2) Modelagem do Mundo (WM-UniT): Ao alinhar dinâmicas de incorporação cruzada via tokens unificados como condições, ele realiza transferência direta de ação humano-humanoide. Este alinhamento garante que dados humanos sejam traduzidos perfeitamente em maior controlabilidade de ação para geração de vídeo de humanoide. Finalmente, ao induzir uma representação de incorporação cruzada altamente alinhada (verificado empiricamente por visualizações t-SNE revelando a convergência de características humanas e de humanoide em uma variedade compartilhada), o UniT oferece um caminho escalável para destilar vasto conhecimento humano em capacidades de humanoide de propósito geral.
English
Scaling humanoid foundation models is bottlenecked by the scarcity of robotic data. While massive egocentric human data offers a scalable alternative, bridging the cross-embodiment chasm remains a fundamental challenge due to kinematic mismatches. We introduce UniT (Unified Latent Action Tokenizer via Visual Anchoring), a framework that establishes a unified physical language for human-to-humanoid transfer. Grounded in the philosophy that heterogeneous kinematics share universal visual consequences, UniT employs a tri-branch cross-reconstruction mechanism: actions predict vision to anchor kinematics to physical outcomes, while vision reconstructs actions to filter out irrelevant visual confounders. Concurrently, a fusion branch synergies these purified modalities into a shared discrete latent space of embodiment-agnostic physical intents. We validate UniT across two paradigms: 1) Policy Learning (VLA-UniT): By predicting these unified tokens, it effectively leverages diverse human data to achieve state-of-the-art data efficiency and robust out-of-distribution (OOD) generalization on both humanoid simulation benchmark and real-world deployments, notably demonstrating zero-shot task transfer. 2) World Modeling (WM-UniT): By aligning cross-embodiment dynamics via unified tokens as conditions, it realizes direct human-to-humanoid action transfer. This alignment ensures that human data seamlessly translates into enhanced action controllability for humanoid video generation. Ultimately, by inducing a highly aligned cross-embodiment representation (empirically verified by t-SNE visualizations revealing the convergence of human and humanoid features into a shared manifold), UniT offers a scalable path to distill vast human knowledge into general-purpose humanoid capabilities.