CoDA: Optimización Coordinada del Ruido de Difusión para la Manipulación de Objetos Articulados con Todo el Cuerpo
CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects
May 27, 2025
Autores: Huaijin Pi, Zhi Cen, Zhiyang Dou, Taku Komura
cs.AI
Resumen
La síntesis de la manipulación de objetos articulados con todo el cuerpo, incluyendo el movimiento corporal, el movimiento de las manos y el movimiento del objeto, es una tarea crucial pero desafiante con amplias aplicaciones en humanos virtuales y robótica. Los desafíos principales son dos. Primero, lograr un movimiento realista de todo el cuerpo requiere una coordinación estrecha entre las manos y el resto del cuerpo, ya que sus movimientos son interdependientes durante la manipulación. Segundo, la manipulación de objetos articulados generalmente implica un alto grado de libertad y exige mayor precisión, a menudo requiriendo que los dedos se coloquen en regiones específicas para accionar las partes móviles. Para abordar estos desafíos, proponemos un novedoso marco de optimización de ruido de difusión coordinado. Específicamente, realizamos una optimización en el espacio de ruido sobre tres modelos de difusión especializados para el cuerpo, la mano izquierda y la mano derecha, cada uno entrenado en su propio conjunto de datos de movimiento para mejorar la generalización. La coordinación emerge naturalmente a través del flujo de gradiente a lo largo de la cadena cinemática humana, permitiendo que la postura global del cuerpo se adapte en respuesta a los objetivos de movimiento de las manos con alta fidelidad. Para mejorar aún más la precisión en la interacción mano-objeto, adoptamos una representación unificada basada en conjuntos de puntos base (BPS), donde las posiciones de los efectores finales se codifican como distancias al mismo BPS utilizado para la geometría del objeto. Esta representación unificada captura relaciones espaciales detalladas entre la mano y las partes articuladas del objeto, y las trayectorias resultantes sirven como objetivos para guiar la optimización del ruido de difusión, produciendo un movimiento de interacción altamente preciso. Realizamos extensos experimentos que demuestran que nuestro método supera a los enfoques existentes en calidad de movimiento y plausibilidad física, y permite diversas capacidades como el control de la pose del objeto, la manipulación simultánea mientras se camina, y la generación de todo el cuerpo a partir de datos únicamente de las manos.
English
Synthesizing whole-body manipulation of articulated objects, including body
motion, hand motion, and object motion, is a critical yet challenging task with
broad applications in virtual humans and robotics. The core challenges are
twofold. First, achieving realistic whole-body motion requires tight
coordination between the hands and the rest of the body, as their movements are
interdependent during manipulation. Second, articulated object manipulation
typically involves high degrees of freedom and demands higher precision, often
requiring the fingers to be placed at specific regions to actuate movable
parts. To address these challenges, we propose a novel coordinated diffusion
noise optimization framework. Specifically, we perform noise-space optimization
over three specialized diffusion models for the body, left hand, and right
hand, each trained on its own motion dataset to improve generalization.
Coordination naturally emerges through gradient flow along the human kinematic
chain, allowing the global body posture to adapt in response to hand motion
objectives with high fidelity. To further enhance precision in hand-object
interaction, we adopt a unified representation based on basis point sets (BPS),
where end-effector positions are encoded as distances to the same BPS used for
object geometry. This unified representation captures fine-grained spatial
relationships between the hand and articulated object parts, and the resulting
trajectories serve as targets to guide the optimization of diffusion noise,
producing highly accurate interaction motion. We conduct extensive experiments
demonstrating that our method outperforms existing approaches in motion quality
and physical plausibility, and enables various capabilities such as object pose
control, simultaneous walking and manipulation, and whole-body generation from
hand-only data.