CoDA: Ottimizzazione Coordinata del Rumore di Diffusione per la Manipolazione Corporea di Oggetti Articolati
CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects
May 27, 2025
Autori: Huaijin Pi, Zhi Cen, Zhiyang Dou, Taku Komura
cs.AI
Abstract
La sintesi della manipolazione di oggetti articolati con il coinvolgimento dell'intero corpo, comprendendo il movimento del corpo, delle mani e dell'oggetto, è un compito cruciale ma impegnativo con ampie applicazioni negli esseri umani virtuali e nella robotica. Le principali sfide sono due. In primo luogo, ottenere un movimento realistico dell'intero corpo richiede una stretta coordinazione tra le mani e il resto del corpo, poiché i loro movimenti sono interdipendenti durante la manipolazione. In secondo luogo, la manipolazione di oggetti articolati coinvolge tipicamente un alto grado di libertà e richiede una maggiore precisione, spesso necessitando che le dita siano posizionate in regioni specifiche per azionare le parti mobili. Per affrontare queste sfide, proponiamo un nuovo framework di ottimizzazione del rumore di diffusione coordinato. Nello specifico, eseguiamo un'ottimizzazione nello spazio del rumore su tre modelli di diffusione specializzati per il corpo, la mano sinistra e la mano destra, ciascuno addestrato sul proprio dataset di movimento per migliorare la generalizzazione. La coordinazione emerge naturalmente attraverso il flusso del gradiente lungo la catena cinematica umana, consentendo alla postura globale del corpo di adattarsi in risposta agli obiettivi di movimento delle mani con alta fedeltà. Per migliorare ulteriormente la precisione nell'interazione mano-oggetto, adottiamo una rappresentazione unificata basata su insiemi di punti base (BPS), in cui le posizioni degli effettori finali sono codificate come distanze dallo stesso BPS utilizzato per la geometria dell'oggetto. Questa rappresentazione unificata cattura le relazioni spaziali dettagliate tra la mano e le parti articolate dell'oggetto, e le traiettorie risultanti servono come obiettivi per guidare l'ottimizzazione del rumore di diffusione, producendo un movimento di interazione altamente accurato. Condividiamo esperimenti estesi che dimostrano come il nostro metodo superi gli approcci esistenti in termini di qualità del movimento e plausibilità fisica, e abiliti varie capacità come il controllo della posa dell'oggetto, la manipolazione simultanea durante la camminata e la generazione dell'intero corpo a partire da dati relativi solo alle mani.
English
Synthesizing whole-body manipulation of articulated objects, including body
motion, hand motion, and object motion, is a critical yet challenging task with
broad applications in virtual humans and robotics. The core challenges are
twofold. First, achieving realistic whole-body motion requires tight
coordination between the hands and the rest of the body, as their movements are
interdependent during manipulation. Second, articulated object manipulation
typically involves high degrees of freedom and demands higher precision, often
requiring the fingers to be placed at specific regions to actuate movable
parts. To address these challenges, we propose a novel coordinated diffusion
noise optimization framework. Specifically, we perform noise-space optimization
over three specialized diffusion models for the body, left hand, and right
hand, each trained on its own motion dataset to improve generalization.
Coordination naturally emerges through gradient flow along the human kinematic
chain, allowing the global body posture to adapt in response to hand motion
objectives with high fidelity. To further enhance precision in hand-object
interaction, we adopt a unified representation based on basis point sets (BPS),
where end-effector positions are encoded as distances to the same BPS used for
object geometry. This unified representation captures fine-grained spatial
relationships between the hand and articulated object parts, and the resulting
trajectories serve as targets to guide the optimization of diffusion noise,
producing highly accurate interaction motion. We conduct extensive experiments
demonstrating that our method outperforms existing approaches in motion quality
and physical plausibility, and enables various capabilities such as object pose
control, simultaneous walking and manipulation, and whole-body generation from
hand-only data.