ChatPaper.aiChatPaper

OmniRetarget: Generación de Datos que Preserva la Interacción para la Locomanipulación de Cuerpo Completo y la Interacción con Escenas en Humanoides

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

September 30, 2025
Autores: Lujie Yang, Xiaoyu Huang, Zhen Wu, Angjoo Kanazawa, Pieter Abbeel, Carmelo Sferrazza, C. Karen Liu, Rocky Duan, Guanya Shi
cs.AI

Resumen

Un paradigma dominante para enseñar habilidades complejas a robots humanoides es reorientar los movimientos humanos como referencias cinemáticas para entrenar políticas de aprendizaje por refuerzo (RL). Sin embargo, los flujos de trabajo de reorientación existentes a menudo enfrentan dificultades debido a la brecha significativa de encarnación entre humanos y robots, produciendo artefactos físicamente implausibles como deslizamientos de pies y penetraciones. Más importante aún, los métodos comunes de reorientación pasan por alto las ricas interacciones humano-objeto y humano-entorno, esenciales para la locomoción expresiva y la loco-manipulación. Para abordar esto, presentamos OmniRetarget, un motor de generación de datos que preserva las interacciones, basado en una malla de interacción que modela y preserva explícitamente las relaciones espaciales y de contacto cruciales entre un agente, el terreno y los objetos manipulados. Al minimizar la deformación laplaciana entre las mallas humana y robótica mientras se aplican restricciones cinemáticas, OmniRetarget genera trayectorias cinemáticamente factibles. Además, preservar las interacciones relevantes para la tarea permite una ampliación eficiente de los datos, desde una sola demostración hasta diferentes encarnaciones de robots, terrenos y configuraciones de objetos. Evaluamos exhaustivamente OmniRetarget reorientando movimientos de los conjuntos de datos OMOMO, LAFAN1 y nuestro propio conjunto de datos de captura de movimiento (MoCap), generando trayectorias de más de 8 horas que logran una mejor satisfacción de las restricciones cinemáticas y preservación de contactos en comparación con las líneas de base ampliamente utilizadas. Estos datos de alta calidad permiten que las políticas de RL propiceptivas ejecuten con éxito habilidades de parkour y loco-manipulación de largo plazo (hasta 30 segundos) en un humanoide Unitree G1, entrenadas con solo 5 términos de recompensa y una simple aleatorización de dominio compartida por todas las tareas, sin ningún plan de aprendizaje estructurado.
English
A dominant paradigm for teaching humanoid robots complex skills is to retarget human motions as kinematic references to train reinforcement learning (RL) policies. However, existing retargeting pipelines often struggle with the significant embodiment gap between humans and robots, producing physically implausible artifacts like foot-skating and penetration. More importantly, common retargeting methods neglect the rich human-object and human-environment interactions essential for expressive locomotion and loco-manipulation. To address this, we introduce OmniRetarget, an interaction-preserving data generation engine based on an interaction mesh that explicitly models and preserves the crucial spatial and contact relationships between an agent, the terrain, and manipulated objects. By minimizing the Laplacian deformation between the human and robot meshes while enforcing kinematic constraints, OmniRetarget generates kinematically feasible trajectories. Moreover, preserving task-relevant interactions enables efficient data augmentation, from a single demonstration to different robot embodiments, terrains, and object configurations. We comprehensively evaluate OmniRetarget by retargeting motions from OMOMO, LAFAN1, and our in-house MoCap datasets, generating over 8-hour trajectories that achieve better kinematic constraint satisfaction and contact preservation than widely used baselines. Such high-quality data enables proprioceptive RL policies to successfully execute long-horizon (up to 30 seconds) parkour and loco-manipulation skills on a Unitree G1 humanoid, trained with only 5 reward terms and simple domain randomization shared by all tasks, without any learning curriculum.
PDF32October 10, 2025