OmniHumanoid: Streaming cross-embodiment videogeneratie met paarvrije adaptatie

Samenvatting

Cross-embodiment videogeneratie heeft als doel bewegingen over te dragen tussen verschillende mensachtige embodimenten, zoals mens-naar-robot en robot-naar-robot, waardoor schaalbare datageneratie voor belichaamde intelligentie mogelijk wordt. Een belangrijke uitdaging in deze context is dat bewegingsdynamieken gedeeltelijk overdraagbaar zijn tussen embodimenten, terwijl uiterlijk en morfologie embodiment-specifiek blijven. Bestaande benaderingen verstrengelen deze factoren vaak, en vele vereisen gepaarde data voor elke doel-embodiment, wat de schaalbaarheid naar nieuwe robots beperkt. We presenteren OmniHumanoid, een raamwerk dat overdraagbaar bewegingsleren en embodiment-specifieke aanpassing factoriseert. Onze methode leert een gedeeld bewegingsoverdrachtmodel uit bewegings-uitgelijnde gepaarde video's over meerdere embodimenten, terwijl het zich aanpast aan een nieuwe embodiment met alleen ongepaarde video's via lichtgewicht embodiment-specifieke adapters. Om interferentie tussen bewegingsoverdracht en embodiment-aanpassing te verminderen, introduceren we verder een tak-geïsoleerd aandachtontwerp dat bewegingsconditionering scheidt van embodiment-specifieke modulatie. Daarnaast construeren we een synthetische cross-embodiment dataset met bewegings-uitgelijnde gepaarde video's, gerenderd over diverse mensachtige assets, scènes en gezichtspunten. Experimenten op zowel synthetische als real-world benchmarks tonen aan dat OmniHumanoid sterke bewegingsgetrouwheid en embodimentconsistentie bereikt, terwijl het schaalbare aanpassing aan ongeziene mensachtige embodimenten mogelijk maakt zonder het gedeelde bewegingsmodel opnieuw te trainen.

English

Cross-embodiment video generation aims to transfer motions across different humanoid embodiments, such as human-to-robot and robot-to-robot, enabling scalable data generation for embodied intelligence. A major challenge in this setting is that motion dynamics are partly transferable across embodiments, whereas appearance and morphology remain embodiment-specific. Existing approaches often entangle these factors, and many require paired data for every target embodiment, which limits scalability to new robots. We present OmniHumanoid, a framework that factorizes transferable motion learning and embodiment-specific adaptation. Our method learns a shared motion transfer model from motion-aligned paired videos spanning multiple embodiments, while adapting to a new embodiment using only unpaired videos through lightweight embodiment-specific adapters. To reduce interference between motion transfer and embodiment adaptation, we further introduce a branch-isolated attention design that separates motion conditioning from embodiment-specific modulation. In addition, we construct a synthetic cross-embodiment dataset with motion-aligned paired videos rendered across diverse humanoid assets, scenes, and viewpoints. Experiments on both synthetic and real-world benchmarks show that OmniHumanoid achieves strong motion fidelity and embodiment consistency, while enabling scalable adaptation to unseen humanoid embodiments without retraining the shared motion model.