CoDA: Gecoördineerde Diffusieruisoptimalisatie voor Heelichaamsmanipulatie van Gearticuleerde Objecten
CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects
May 27, 2025
Auteurs: Huaijin Pi, Zhi Cen, Zhiyang Dou, Taku Komura
cs.AI
Samenvatting
Het synthetiseren van volledige lichaamsmanipulatie van gearticuleerde objecten, inclusief lichaamsbeweging, handbeweging en objectbeweging, is een cruciale maar uitdagende taak met brede toepassingen in virtuele mensen en robotica. De kernuitdagingen zijn tweeledig. Ten eerste vereist het bereiken van realistische volledige lichaamsbeweging een nauwe coördinatie tussen de handen en de rest van het lichaam, aangezien hun bewegingen tijdens manipulatie onderling afhankelijk zijn. Ten tweede omvat manipulatie van gearticuleerde objecten typisch een hoog aantal vrijheidsgraden en vereist het een hogere precisie, waarbij vaak de vingers op specifieke gebieden moeten worden geplaatst om beweegbare delen te activeren. Om deze uitdagingen aan te pakken, stellen we een nieuw gecoördineerd diffuusruisoptimalisatiekader voor. Specifiek voeren we ruisruimteoptimalisatie uit over drie gespecialiseerde diffusiemodellen voor het lichaam, de linkerhand en de rechterhand, elk getraind op zijn eigen bewegingsdataset om de generalisatie te verbeteren. Coördinatie ontstaat van nature door gradiëntstroming langs de menselijke kinematische keten, waardoor de globale lichaamshouding zich kan aanpassen aan de bewegingsdoelen van de handen met een hoge nauwkeurigheid. Om de precisie in hand-objectinteractie verder te verbeteren, nemen we een uniforme representatie op basis van basispuntsets (BPS), waarbij eindeffectorposities worden gecodeerd als afstanden tot dezelfde BPS die wordt gebruikt voor de objectgeometrie. Deze uniforme representatie vangt fijnmazige ruimtelijke relaties tussen de hand en gearticuleerde objectdelen op, en de resulterende trajecten dienen als doelen om de optimalisatie van diffusieruis te begeleiden, wat zeer nauwkeurige interactiebeweging oplevert. We voeren uitgebreide experimenten uit die aantonen dat onze methode bestaande benaderingen overtreft in bewegingskwaliteit en fysieke geloofwaardigheid, en verschillende mogelijkheden biedt, zoals objectposecontrole, gelijktijdig lopen en manipuleren, en volledige lichaamsgeneratie op basis van alleen handdata.
English
Synthesizing whole-body manipulation of articulated objects, including body
motion, hand motion, and object motion, is a critical yet challenging task with
broad applications in virtual humans and robotics. The core challenges are
twofold. First, achieving realistic whole-body motion requires tight
coordination between the hands and the rest of the body, as their movements are
interdependent during manipulation. Second, articulated object manipulation
typically involves high degrees of freedom and demands higher precision, often
requiring the fingers to be placed at specific regions to actuate movable
parts. To address these challenges, we propose a novel coordinated diffusion
noise optimization framework. Specifically, we perform noise-space optimization
over three specialized diffusion models for the body, left hand, and right
hand, each trained on its own motion dataset to improve generalization.
Coordination naturally emerges through gradient flow along the human kinematic
chain, allowing the global body posture to adapt in response to hand motion
objectives with high fidelity. To further enhance precision in hand-object
interaction, we adopt a unified representation based on basis point sets (BPS),
where end-effector positions are encoded as distances to the same BPS used for
object geometry. This unified representation captures fine-grained spatial
relationships between the hand and articulated object parts, and the resulting
trajectories serve as targets to guide the optimization of diffusion noise,
producing highly accurate interaction motion. We conduct extensive experiments
demonstrating that our method outperforms existing approaches in motion quality
and physical plausibility, and enables various capabilities such as object pose
control, simultaneous walking and manipulation, and whole-body generation from
hand-only data.