CoDA: Otimização Coordenada de Ruído de Difusão para Manipulação Corporal Completa de Objetos Articulados
CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects
May 27, 2025
Autores: Huaijin Pi, Zhi Cen, Zhiyang Dou, Taku Komura
cs.AI
Resumo
A síntese da manipulação de objetos articulados com o corpo inteiro, incluindo o movimento do corpo, das mãos e do objeto, é uma tarefa crítica, porém desafiadora, com amplas aplicações em humanos virtuais e robótica. Os principais desafios são duplos. Primeiro, alcançar movimentos realistas do corpo inteiro requer uma coordenação estreita entre as mãos e o restante do corpo, já que seus movimentos são interdependentes durante a manipulação. Segundo, a manipulação de objetos articulados geralmente envolve um alto grau de liberdade e exige maior precisão, frequentemente exigindo que os dedos sejam posicionados em regiões específicas para acionar partes móveis. Para abordar esses desafios, propomos uma nova estrutura de otimização de ruído de difusão coordenada. Especificamente, realizamos a otimização no espaço de ruído sobre três modelos de difusão especializados para o corpo, mão esquerda e mão direita, cada um treinado em seu próprio conjunto de dados de movimento para melhorar a generalização. A coordenação emerge naturalmente através do fluxo de gradiente ao longo da cadeia cinemática humana, permitindo que a postura global do corpo se adapte em resposta aos objetivos de movimento das mãos com alta fidelidade. Para aprimorar ainda mais a precisão na interação mão-objeto, adotamos uma representação unificada baseada em conjuntos de pontos de base (BPS), onde as posições dos efetores finais são codificadas como distâncias para o mesmo BPS usado para a geometria do objeto. Essa representação unificada captura relações espaciais detalhadas entre a mão e as partes articuladas do objeto, e as trajetórias resultantes servem como alvos para guiar a otimização do ruído de difusão, produzindo movimentos de interação altamente precisos. Realizamos extensos experimentos demonstrando que nosso método supera as abordagens existentes em qualidade de movimento e plausibilidade física, e permite várias capacidades, como controle de pose do objeto, manipulação simultânea com caminhada e geração de corpo inteiro a partir de dados apenas das mãos.
English
Synthesizing whole-body manipulation of articulated objects, including body
motion, hand motion, and object motion, is a critical yet challenging task with
broad applications in virtual humans and robotics. The core challenges are
twofold. First, achieving realistic whole-body motion requires tight
coordination between the hands and the rest of the body, as their movements are
interdependent during manipulation. Second, articulated object manipulation
typically involves high degrees of freedom and demands higher precision, often
requiring the fingers to be placed at specific regions to actuate movable
parts. To address these challenges, we propose a novel coordinated diffusion
noise optimization framework. Specifically, we perform noise-space optimization
over three specialized diffusion models for the body, left hand, and right
hand, each trained on its own motion dataset to improve generalization.
Coordination naturally emerges through gradient flow along the human kinematic
chain, allowing the global body posture to adapt in response to hand motion
objectives with high fidelity. To further enhance precision in hand-object
interaction, we adopt a unified representation based on basis point sets (BPS),
where end-effector positions are encoded as distances to the same BPS used for
object geometry. This unified representation captures fine-grained spatial
relationships between the hand and articulated object parts, and the resulting
trajectories serve as targets to guide the optimization of diffusion noise,
producing highly accurate interaction motion. We conduct extensive experiments
demonstrating that our method outperforms existing approaches in motion quality
and physical plausibility, and enables various capabilities such as object pose
control, simultaneous walking and manipulation, and whole-body generation from
hand-only data.