OmniHumanoid: Geração de Vídeo em Streaming para Múltiplos Corpos com Adaptação Livre de Pares

Resumo

A geração de vídeo cross-embodiment visa transferir movimentos entre diferentes corpos humanoides, como de humano para robô e de robô para robô, possibilitando a geração escalável de dados para inteligência incorporada. Um grande desafio nesse cenário é que a dinâmica de movimento é parcialmente transferível entre corpos, enquanto a aparência e a morfologia permanecem específicas de cada corpo. Abordagens existentes frequentemente entrelaçam esses fatores, e muitas exigem dados pareados para cada corpo alvo, o que limita a escalabilidade para novos robôs. Apresentamos o OmniHumanoid, uma estrutura que fatoriza o aprendizado de movimento transferível e a adaptação específica do corpo. Nosso método aprende um modelo compartilhado de transferência de movimento a partir de vídeos pareados alinhados por movimento abrangendo múltiplos corpos, enquanto se adapta a um novo corpo usando apenas vídeos não pareados por meio de adaptadores leves específicos do corpo. Para reduzir a interferência entre a transferência de movimento e a adaptação do corpo, introduzimos ainda um design de atenção com ramificações isoladas que separa o condicionamento de movimento da modulação específica do corpo. Além disso, construímos um conjunto de dados sintético cross-embodiment com vídeos pareados alinhados por movimento renderizados em diversos ativos humanoides, cenas e pontos de vista. Experimentos em benchmarks sintéticos e do mundo real mostram que o OmniHumanoid alcança alta fidelidade de movimento e consistência do corpo, ao mesmo tempo que possibilita adaptação escalável a corpos humanoides não vistos sem retreinar o modelo de movimento compartilhado.

English

Cross-embodiment video generation aims to transfer motions across different humanoid embodiments, such as human-to-robot and robot-to-robot, enabling scalable data generation for embodied intelligence. A major challenge in this setting is that motion dynamics are partly transferable across embodiments, whereas appearance and morphology remain embodiment-specific. Existing approaches often entangle these factors, and many require paired data for every target embodiment, which limits scalability to new robots. We present OmniHumanoid, a framework that factorizes transferable motion learning and embodiment-specific adaptation. Our method learns a shared motion transfer model from motion-aligned paired videos spanning multiple embodiments, while adapting to a new embodiment using only unpaired videos through lightweight embodiment-specific adapters. To reduce interference between motion transfer and embodiment adaptation, we further introduce a branch-isolated attention design that separates motion conditioning from embodiment-specific modulation. In addition, we construct a synthetic cross-embodiment dataset with motion-aligned paired videos rendered across diverse humanoid assets, scenes, and viewpoints. Experiments on both synthetic and real-world benchmarks show that OmniHumanoid achieves strong motion fidelity and embodiment consistency, while enabling scalable adaptation to unseen humanoid embodiments without retraining the shared motion model.