OmniRetarget: Interaktionserhaltende Datengenerierung für Ganzkörper-Loko-Manipulation und Szeneninteraktion humanoider Roboter
OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction
September 30, 2025
papers.authors: Lujie Yang, Xiaoyu Huang, Zhen Wu, Angjoo Kanazawa, Pieter Abbeel, Carmelo Sferrazza, C. Karen Liu, Rocky Duan, Guanya Shi
cs.AI
papers.abstract
Ein dominantes Paradigma für das Lehren komplexer Fähigkeiten an humanoide Roboter besteht darin, menschliche Bewegungen als kinematische Referenzen zu nutzen, um Reinforcement-Learning (RL)-Policies zu trainieren. Allerdings kämpfen bestehende Retargeting-Pipelines oft mit der erheblichen Verkörperungslücke zwischen Menschen und Robotern, was zu physikalisch unplausiblen Artefakten wie Fußgleiten und Durchdringungen führt. Noch wichtiger ist, dass gängige Retargeting-Methoden die reichhaltigen Mensch-Objekt- und Mensch-Umwelt-Interaktionen vernachlässigen, die für ausdrucksstarke Fortbewegung und Loko-Manipulation entscheidend sind. Um dies zu adressieren, stellen wir OmniRetarget vor, eine interaktionserhaltende Daten-Generierungs-Engine, die auf einem Interaktions-Mesh basiert, das die entscheidenden räumlichen und Kontaktbeziehungen zwischen einem Agenten, dem Terrain und manipulierten Objekten explizit modelliert und bewahrt. Durch die Minimierung der Laplacian-Deformation zwischen den menschlichen und robotischen Meshes unter Einhaltung kinematischer Randbedingungen generiert OmniRetarget kinematisch machbare Trajektorien. Darüber hinaus ermöglicht die Bewahrung aufgabenrelevanter Interaktionen eine effiziente Datenaugmentierung, von einer einzigen Demonstration hin zu verschiedenen Roboter-Verkörperungen, Terrains und Objektkonfigurationen. Wir evaluieren OmniRetarget umfassend, indem wir Bewegungen aus den OMOMO-, LAFAN1- und unseren hauseigenen MoCap-Datensätzen retargeten und dabei über 8 Stunden lange Trajektorien generieren, die eine bessere Einhaltung kinematischer Randbedingungen und Kontakterhaltung erreichen als weit verbreitete Baselines. Solche hochwertigen Daten ermöglichen es propriozeptiven RL-Policies, langfristige (bis zu 30 Sekunden) Parkour- und Loko-Manipulations-Fähigkeiten auf einem Unitree G1 Humanoid erfolgreich auszuführen, die mit nur 5 Belohnungstermen und einfacher Domänenrandomisierung, die für alle Aufgaben gemeinsam genutzt wird, trainiert wurden, ohne jeglichen Lerncurriculum.
English
A dominant paradigm for teaching humanoid robots complex skills is to
retarget human motions as kinematic references to train reinforcement learning
(RL) policies. However, existing retargeting pipelines often struggle with the
significant embodiment gap between humans and robots, producing physically
implausible artifacts like foot-skating and penetration. More importantly,
common retargeting methods neglect the rich human-object and human-environment
interactions essential for expressive locomotion and loco-manipulation. To
address this, we introduce OmniRetarget, an interaction-preserving data
generation engine based on an interaction mesh that explicitly models and
preserves the crucial spatial and contact relationships between an agent, the
terrain, and manipulated objects. By minimizing the Laplacian deformation
between the human and robot meshes while enforcing kinematic constraints,
OmniRetarget generates kinematically feasible trajectories. Moreover,
preserving task-relevant interactions enables efficient data augmentation, from
a single demonstration to different robot embodiments, terrains, and object
configurations. We comprehensively evaluate OmniRetarget by retargeting motions
from OMOMO, LAFAN1, and our in-house MoCap datasets, generating over 8-hour
trajectories that achieve better kinematic constraint satisfaction and contact
preservation than widely used baselines. Such high-quality data enables
proprioceptive RL policies to successfully execute long-horizon (up to 30
seconds) parkour and loco-manipulation skills on a Unitree G1 humanoid, trained
with only 5 reward terms and simple domain randomization shared by all tasks,
without any learning curriculum.