CoDA: Optimización Coordinada del Ruido de Difusión para la Manipulación de Objetos Articulados con Todo el Cuerpo

Resumen

La síntesis de la manipulación de objetos articulados con todo el cuerpo, incluyendo el movimiento corporal, el movimiento de las manos y el movimiento del objeto, es una tarea crucial pero desafiante con amplias aplicaciones en humanos virtuales y robótica. Los desafíos principales son dos. Primero, lograr un movimiento realista de todo el cuerpo requiere una coordinación estrecha entre las manos y el resto del cuerpo, ya que sus movimientos son interdependientes durante la manipulación. Segundo, la manipulación de objetos articulados generalmente implica un alto grado de libertad y exige mayor precisión, a menudo requiriendo que los dedos se coloquen en regiones específicas para accionar las partes móviles. Para abordar estos desafíos, proponemos un novedoso marco de optimización de ruido de difusión coordinado. Específicamente, realizamos una optimización en el espacio de ruido sobre tres modelos de difusión especializados para el cuerpo, la mano izquierda y la mano derecha, cada uno entrenado en su propio conjunto de datos de movimiento para mejorar la generalización. La coordinación emerge naturalmente a través del flujo de gradiente a lo largo de la cadena cinemática humana, permitiendo que la postura global del cuerpo se adapte en respuesta a los objetivos de movimiento de las manos con alta fidelidad. Para mejorar aún más la precisión en la interacción mano-objeto, adoptamos una representación unificada basada en conjuntos de puntos base (BPS), donde las posiciones de los efectores finales se codifican como distancias al mismo BPS utilizado para la geometría del objeto. Esta representación unificada captura relaciones espaciales detalladas entre la mano y las partes articuladas del objeto, y las trayectorias resultantes sirven como objetivos para guiar la optimización del ruido de difusión, produciendo un movimiento de interacción altamente preciso. Realizamos extensos experimentos que demuestran que nuestro método supera a los enfoques existentes en calidad de movimiento y plausibilidad física, y permite diversas capacidades como el control de la pose del objeto, la manipulación simultánea mientras se camina, y la generación de todo el cuerpo a partir de datos únicamente de las manos.

English

Synthesizing whole-body manipulation of articulated objects, including body motion, hand motion, and object motion, is a critical yet challenging task with broad applications in virtual humans and robotics. The core challenges are twofold. First, achieving realistic whole-body motion requires tight coordination between the hands and the rest of the body, as their movements are interdependent during manipulation. Second, articulated object manipulation typically involves high degrees of freedom and demands higher precision, often requiring the fingers to be placed at specific regions to actuate movable parts. To address these challenges, we propose a novel coordinated diffusion noise optimization framework. Specifically, we perform noise-space optimization over three specialized diffusion models for the body, left hand, and right hand, each trained on its own motion dataset to improve generalization. Coordination naturally emerges through gradient flow along the human kinematic chain, allowing the global body posture to adapt in response to hand motion objectives with high fidelity. To further enhance precision in hand-object interaction, we adopt a unified representation based on basis point sets (BPS), where end-effector positions are encoded as distances to the same BPS used for object geometry. This unified representation captures fine-grained spatial relationships between the hand and articulated object parts, and the resulting trajectories serve as targets to guide the optimization of diffusion noise, producing highly accurate interaction motion. We conduct extensive experiments demonstrating that our method outperforms existing approaches in motion quality and physical plausibility, and enables various capabilities such as object pose control, simultaneous walking and manipulation, and whole-body generation from hand-only data.

CoDA: Optimización Coordinada del Ruido de Difusión para la Manipulación de Objetos Articulados con Todo el Cuerpo

CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects

Resumen

Support