OmniHumanoid: Generación de Video en Streaming entre Diferentes Corporalidades con Adaptación Sin Pares

Resumen

La generación de video cross-embodiment tiene como objetivo transferir movimientos entre diferentes encarnaciones humanoides, como de humano a robot y de robot a robot, permitiendo la generación escalable de datos para la inteligencia corpórea. Un desafío importante en este contexto es que la dinámica del movimiento es parcialmente transferible entre encarnaciones, mientras que la apariencia y la morfología siguen siendo específicas de cada encarnación. Los enfoques existentes a menudo entremezclan estos factores, y muchos requieren datos emparejados para cada encarnación objetivo, lo que limita la escalabilidad a nuevos robots. Presentamos OmniHumanoid, un marco que factoriza el aprendizaje de movimiento transferible y la adaptación específica de la encarnación. Nuestro método aprende un modelo compartido de transferencia de movimiento a partir de videos emparejados y alineados en movimiento que abarcan múltiples encarnaciones, mientras se adapta a una nueva encarnación utilizando solo videos no emparejados a través de adaptadores ligeros específicos de la encarnación. Para reducir la interferencia entre la transferencia de movimiento y la adaptación de la encarnación, introducimos además un diseño de atención de rama aislada que separa el condicionamiento del movimiento de la modulación específica de la encarnación. Además, construimos un conjunto de datos sintético cross-embodiment con videos emparejados y alineados en movimiento renderizados a través de diversos activos humanoides, escenas y puntos de vista. Los experimentos tanto en puntos de referencia sintéticos como del mundo real muestran que OmniHumanoid logra una alta fidelidad de movimiento y consistencia de encarnación, mientras permite una adaptación escalable a encarnaciones humanoides no vistas sin reentrenar el modelo de movimiento compartido.

English

Cross-embodiment video generation aims to transfer motions across different humanoid embodiments, such as human-to-robot and robot-to-robot, enabling scalable data generation for embodied intelligence. A major challenge in this setting is that motion dynamics are partly transferable across embodiments, whereas appearance and morphology remain embodiment-specific. Existing approaches often entangle these factors, and many require paired data for every target embodiment, which limits scalability to new robots. We present OmniHumanoid, a framework that factorizes transferable motion learning and embodiment-specific adaptation. Our method learns a shared motion transfer model from motion-aligned paired videos spanning multiple embodiments, while adapting to a new embodiment using only unpaired videos through lightweight embodiment-specific adapters. To reduce interference between motion transfer and embodiment adaptation, we further introduce a branch-isolated attention design that separates motion conditioning from embodiment-specific modulation. In addition, we construct a synthetic cross-embodiment dataset with motion-aligned paired videos rendered across diverse humanoid assets, scenes, and viewpoints. Experiments on both synthetic and real-world benchmarks show that OmniHumanoid achieves strong motion fidelity and embodiment consistency, while enabling scalable adaptation to unseen humanoid embodiments without retraining the shared motion model.