ChatPaper.aiChatPaper

CoDA : Optimisation coordonnée du bruit de diffusion pour la manipulation corporelle intégrale d'objets articulés

CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects

May 27, 2025
Auteurs: Huaijin Pi, Zhi Cen, Zhiyang Dou, Taku Komura
cs.AI

Résumé

La synthèse de la manipulation d'objets articulés impliquant l'ensemble du corps, incluant les mouvements du corps, des mains et de l'objet, constitue une tâche cruciale mais complexe, avec des applications étendues dans les domaines des humains virtuels et de la robotique. Les défis principaux sont doubles. Premièrement, obtenir un mouvement réaliste de l'ensemble du corps nécessite une coordination étroite entre les mains et le reste du corps, car leurs mouvements sont interdépendants lors de la manipulation. Deuxièmement, la manipulation d'objets articulés implique généralement un grand nombre de degrés de liberté et exige une précision accrue, souvent nécessitant que les doigts soient positionnés sur des régions spécifiques pour actionner les parties mobiles. Pour relever ces défis, nous proposons un nouveau cadre d'optimisation de bruit de diffusion coordonné. Plus précisément, nous effectuons une optimisation dans l'espace de bruit sur trois modèles de diffusion spécialisés pour le corps, la main gauche et la main droite, chacun entraîné sur son propre ensemble de données de mouvement pour améliorer la généralisation. La coordination émerge naturellement grâce au flux de gradient le long de la chaîne cinématique humaine, permettant à la posture globale du corps de s'adapter en réponse aux objectifs de mouvement des mains avec une grande fidélité. Pour renforcer encore la précision dans l'interaction main-objet, nous adoptons une représentation unifiée basée sur des ensembles de points de base (BPS), où les positions des effecteurs finaux sont encodées comme des distances au même BPS utilisé pour la géométrie de l'objet. Cette représentation unifiée capture les relations spatiales fines entre la main et les parties articulées de l'objet, et les trajectoires résultantes servent de cibles pour guider l'optimisation du bruit de diffusion, produisant un mouvement d'interaction très précis. Nous menons des expériences approfondies démontrant que notre méthode surpasse les approches existantes en termes de qualité de mouvement et de plausibilité physique, et permet diverses capacités telles que le contrôle de la pose de l'objet, la manipulation simultanée en marchant, et la génération de l'ensemble du corps à partir de données uniquement manuelles.
English
Synthesizing whole-body manipulation of articulated objects, including body motion, hand motion, and object motion, is a critical yet challenging task with broad applications in virtual humans and robotics. The core challenges are twofold. First, achieving realistic whole-body motion requires tight coordination between the hands and the rest of the body, as their movements are interdependent during manipulation. Second, articulated object manipulation typically involves high degrees of freedom and demands higher precision, often requiring the fingers to be placed at specific regions to actuate movable parts. To address these challenges, we propose a novel coordinated diffusion noise optimization framework. Specifically, we perform noise-space optimization over three specialized diffusion models for the body, left hand, and right hand, each trained on its own motion dataset to improve generalization. Coordination naturally emerges through gradient flow along the human kinematic chain, allowing the global body posture to adapt in response to hand motion objectives with high fidelity. To further enhance precision in hand-object interaction, we adopt a unified representation based on basis point sets (BPS), where end-effector positions are encoded as distances to the same BPS used for object geometry. This unified representation captures fine-grained spatial relationships between the hand and articulated object parts, and the resulting trajectories serve as targets to guide the optimization of diffusion noise, producing highly accurate interaction motion. We conduct extensive experiments demonstrating that our method outperforms existing approaches in motion quality and physical plausibility, and enables various capabilities such as object pose control, simultaneous walking and manipulation, and whole-body generation from hand-only data.
PDF202June 2, 2025