OmniRetarget : Génération de données préservant les interactions pour la loco-manipulation corporelle intégrale et l'interaction avec l'environnement des humanoïdes
OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction
September 30, 2025
papers.authors: Lujie Yang, Xiaoyu Huang, Zhen Wu, Angjoo Kanazawa, Pieter Abbeel, Carmelo Sferrazza, C. Karen Liu, Rocky Duan, Guanya Shi
cs.AI
papers.abstract
Un paradigme dominant pour enseigner des compétences complexes aux robots humanoïdes consiste à retargeter les mouvements humains comme références cinématiques pour entraîner des politiques d'apprentissage par renforcement (RL). Cependant, les pipelines de retargeting existants peinent souvent à combler le fossé significatif entre les corps humains et robotiques, produisant des artefacts physiquement invraisemblables comme le glissement des pieds et les interpénétrations. Plus important encore, les méthodes de retargeting courantes négligent les riches interactions humain-objet et humain-environnement, essentielles pour une locomotion et une loco-manipulation expressives. Pour résoudre ce problème, nous présentons OmniRetarget, un moteur de génération de données préservant les interactions, basé sur un maillage d'interaction qui modélise et préserve explicitement les relations spatiales et de contact cruciales entre un agent, le terrain et les objets manipulés. En minimisant la déformation laplacienne entre les maillages humains et robotiques tout en imposant des contraintes cinématiques, OmniRetarget génère des trajectoires cinématiquement réalisables. De plus, la préservation des interactions pertinentes pour la tâche permet une augmentation efficace des données, d'une seule démonstration à différentes incarnations de robots, terrains et configurations d'objets. Nous évaluons de manière exhaustive OmniRetarget en retargetant des mouvements provenant des ensembles de données OMOMO, LAFAN1 et de notre propre base de données MoCap, générant ainsi plus de 8 heures de trajectoires qui satisfont mieux les contraintes cinématiques et préservent les contacts par rapport aux méthodes de référence largement utilisées. Ces données de haute qualité permettent aux politiques RL proprioceptives d'exécuter avec succès des compétences de parkour et de loco-manipulation à long terme (jusqu'à 30 secondes) sur un humanoïde Unitree G1, entraîné avec seulement 5 termes de récompense et une simple randomisation de domaine partagée par toutes les tâches, sans aucun curriculum d'apprentissage.
English
A dominant paradigm for teaching humanoid robots complex skills is to
retarget human motions as kinematic references to train reinforcement learning
(RL) policies. However, existing retargeting pipelines often struggle with the
significant embodiment gap between humans and robots, producing physically
implausible artifacts like foot-skating and penetration. More importantly,
common retargeting methods neglect the rich human-object and human-environment
interactions essential for expressive locomotion and loco-manipulation. To
address this, we introduce OmniRetarget, an interaction-preserving data
generation engine based on an interaction mesh that explicitly models and
preserves the crucial spatial and contact relationships between an agent, the
terrain, and manipulated objects. By minimizing the Laplacian deformation
between the human and robot meshes while enforcing kinematic constraints,
OmniRetarget generates kinematically feasible trajectories. Moreover,
preserving task-relevant interactions enables efficient data augmentation, from
a single demonstration to different robot embodiments, terrains, and object
configurations. We comprehensively evaluate OmniRetarget by retargeting motions
from OMOMO, LAFAN1, and our in-house MoCap datasets, generating over 8-hour
trajectories that achieve better kinematic constraint satisfaction and contact
preservation than widely used baselines. Such high-quality data enables
proprioceptive RL policies to successfully execute long-horizon (up to 30
seconds) parkour and loco-manipulation skills on a Unitree G1 humanoid, trained
with only 5 reward terms and simple domain randomization shared by all tasks,
without any learning curriculum.