CoDA: Optimierung des koordinierten Diffusionsrauschens für die Ganzkörpermanipulation von artikulierten Objekten
CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects
May 27, 2025
Autoren: Huaijin Pi, Zhi Cen, Zhiyang Dou, Taku Komura
cs.AI
Zusammenfassung
Die Synthese von Ganzkörpermanipulationen an artikulierten Objekten, einschließlich Körperbewegung, Handbewegung und Objektbewegung, ist eine entscheidende, aber herausfordernde Aufgabe mit breiten Anwendungen in virtuellen Menschen und der Robotik. Die Kernherausforderungen sind zweifach. Erstens erfordert die Erzielung realistischer Ganzkörperbewegungen eine enge Koordination zwischen den Händen und dem restlichen Körper, da ihre Bewegungen während der Manipulation voneinander abhängig sind. Zweitens beinhaltet die Manipulation artikulierter Objekte typischerweise hohe Freiheitsgrade und erfordert eine höhere Präzision, oft müssen die Finger an bestimmten Bereichen platziert werden, um bewegliche Teile zu betätigen. Um diese Herausforderungen zu bewältigen, schlagen wir ein neuartiges koordiniertes Diffusionsrausch-Optimierungsframework vor. Konkret führen wir eine Rauschraumoptimierung über drei spezialisierte Diffusionsmodelle für den Körper, die linke Hand und die rechte Hand durch, die jeweils auf ihrem eigenen Bewegungsdatensatz trainiert wurden, um die Generalisierung zu verbessern. Die Koordination entsteht natürlich durch den Gradientenfluss entlang der menschlichen kinematischen Kette, wodurch sich die globale Körperhaltung mit hoher Genauigkeit an die Handbewegungsziele anpasst. Um die Präzision bei der Hand-Objekt-Interaktion weiter zu verbessern, verwenden wir eine einheitliche Darstellung basierend auf Basispunktmengen (BPS), bei der die Positionen der Endeffektoren als Abstände zur gleichen BPS kodiert werden, die auch für die Objektgeometrie verwendet wird. Diese einheitliche Darstellung erfasst fein abgestufte räumliche Beziehungen zwischen der Hand und den artikulierten Objektteilen, und die resultierenden Trajektorien dienen als Ziele, um die Optimierung des Diffusionsrauschens zu steuern, wodurch hochgenaue Interaktionsbewegungen erzeugt werden. Wir führen umfangreiche Experimente durch, die zeigen, dass unsere Methode bestehende Ansätze in Bezug auf Bewegungsqualität und physikalische Plausibilität übertrifft und verschiedene Fähigkeiten ermöglicht, wie Objektposenkontrolle, gleichzeitiges Gehen und Manipulieren sowie Ganzkörpergeneration aus reinen Handdaten.
English
Synthesizing whole-body manipulation of articulated objects, including body
motion, hand motion, and object motion, is a critical yet challenging task with
broad applications in virtual humans and robotics. The core challenges are
twofold. First, achieving realistic whole-body motion requires tight
coordination between the hands and the rest of the body, as their movements are
interdependent during manipulation. Second, articulated object manipulation
typically involves high degrees of freedom and demands higher precision, often
requiring the fingers to be placed at specific regions to actuate movable
parts. To address these challenges, we propose a novel coordinated diffusion
noise optimization framework. Specifically, we perform noise-space optimization
over three specialized diffusion models for the body, left hand, and right
hand, each trained on its own motion dataset to improve generalization.
Coordination naturally emerges through gradient flow along the human kinematic
chain, allowing the global body posture to adapt in response to hand motion
objectives with high fidelity. To further enhance precision in hand-object
interaction, we adopt a unified representation based on basis point sets (BPS),
where end-effector positions are encoded as distances to the same BPS used for
object geometry. This unified representation captures fine-grained spatial
relationships between the hand and articulated object parts, and the resulting
trajectories serve as targets to guide the optimization of diffusion noise,
producing highly accurate interaction motion. We conduct extensive experiments
demonstrating that our method outperforms existing approaches in motion quality
and physical plausibility, and enables various capabilities such as object pose
control, simultaneous walking and manipulation, and whole-body generation from
hand-only data.