OmniHumanoid : Génération vidéo inter-incarnation en streaming avec adaptation sans appariement

Résumé

La génération de vidéos inter-embodiment vise à transférer des mouvements entre différents embodiments humanoïdes, tels que l'humain vers le robot et le robot vers le robot, permettant ainsi une génération de données à grande échelle pour l'intelligence incarnée. Un défi majeur dans ce contexte est que les dynamiques de mouvement sont partiellement transférables entre les embodiments, tandis que l'apparence et la morphologie restent spécifiques à chaque embodiment. Les approches existantes entremêlent souvent ces facteurs, et beaucoup nécessitent des données appariées pour chaque embodiment cible, ce qui limite l'extensibilité à de nouveaux robots. Nous présentons OmniHumanoid, un cadre qui factorise l'apprentissage du mouvement transférable et l'adaptation spécifique à l'embodiment. Notre méthode apprend un modèle de transfert de mouvement partagé à partir de vidéos appariées alignées sur le mouvement couvrant plusieurs embodiments, tout en s'adaptant à un nouvel embodiment à l'aide de vidéos non appariées via des adaptateurs légers spécifiques à l'embodiment. Pour réduire l'interférence entre le transfert de mouvement et l'adaptation à l'embodiment, nous introduisons en outre une conception d'attention à branches isolées qui sépare le conditionnement du mouvement de la modulation spécifique à l'embodiment. De plus, nous construisons un ensemble de données synthétiques inter-embodiment avec des vidéos appariées alignées sur le mouvement rendues à travers divers actifs, scènes et points de vue humanoïdes. Les expériences sur des bancs d'essai synthétiques et réels montrent qu'OmniHumanoid atteint une forte fidélité du mouvement et une cohérence de l'embodiment, tout en permettant une adaptation évolutive à des embodiments humanoïdes inconnus sans réentraîner le modèle de mouvement partagé.

English

Cross-embodiment video generation aims to transfer motions across different humanoid embodiments, such as human-to-robot and robot-to-robot, enabling scalable data generation for embodied intelligence. A major challenge in this setting is that motion dynamics are partly transferable across embodiments, whereas appearance and morphology remain embodiment-specific. Existing approaches often entangle these factors, and many require paired data for every target embodiment, which limits scalability to new robots. We present OmniHumanoid, a framework that factorizes transferable motion learning and embodiment-specific adaptation. Our method learns a shared motion transfer model from motion-aligned paired videos spanning multiple embodiments, while adapting to a new embodiment using only unpaired videos through lightweight embodiment-specific adapters. To reduce interference between motion transfer and embodiment adaptation, we further introduce a branch-isolated attention design that separates motion conditioning from embodiment-specific modulation. In addition, we construct a synthetic cross-embodiment dataset with motion-aligned paired videos rendered across diverse humanoid assets, scenes, and viewpoints. Experiments on both synthetic and real-world benchmarks show that OmniHumanoid achieves strong motion fidelity and embodiment consistency, while enabling scalable adaptation to unseen humanoid embodiments without retraining the shared motion model.