CoDA: Оптимизация согласованного диффузионного шума для манипуляций с сочлененными объектами всем телом
CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects
May 27, 2025
Авторы: Huaijin Pi, Zhi Cen, Zhiyang Dou, Taku Komura
cs.AI
Аннотация
Синтез манипуляций с сочленёнными объектами, включая движение тела, рук и самого объекта, является важной, но сложной задачей с широким спектром приложений в области виртуальных людей и робототехники. Основные проблемы заключаются в следующем. Во-первых, достижение реалистичного движения всего тела требует тесной координации между руками и остальными частями тела, так как их движения взаимозависимы в процессе манипуляции. Во-вторых, манипуляция сочленёнными объектами обычно предполагает высокую степень свободы и требует большей точности, часто включая размещение пальцев в определённых областях для активации подвижных частей. Для решения этих задач мы предлагаем новый фреймворк оптимизации скоординированного диффузионного шума. В частности, мы выполняем оптимизацию в пространстве шума для трёх специализированных диффузионных моделей, отвечающих за тело, левую и правую руки, каждая из которых обучена на своём наборе данных для улучшения обобщаемости. Координация естественным образом возникает благодаря градиентному потоку вдоль кинематической цепи человека, что позволяет глобальной позе тела адаптироваться к целям движения рук с высокой точностью. Для повышения точности взаимодействия рук с объектом мы используем унифицированное представление на основе наборов базовых точек (BPS), где позиции конечных эффекторов кодируются как расстояния до того же BPS, что используется для геометрии объекта. Это унифицированное представление фиксирует детализированные пространственные отношения между рукой и частями сочленённого объекта, а полученные траектории служат целями для оптимизации диффузионного шума, создавая высокоточное движение взаимодействия. Мы проводим обширные эксперименты, демонстрирующие, что наш метод превосходит существующие подходы по качеству движения и физической правдоподобности, а также позволяет реализовать различные возможности, такие как управление позой объекта, одновременная ходьба и манипуляция, и генерация движения всего тела на основе данных только о руках.
English
Synthesizing whole-body manipulation of articulated objects, including body
motion, hand motion, and object motion, is a critical yet challenging task with
broad applications in virtual humans and robotics. The core challenges are
twofold. First, achieving realistic whole-body motion requires tight
coordination between the hands and the rest of the body, as their movements are
interdependent during manipulation. Second, articulated object manipulation
typically involves high degrees of freedom and demands higher precision, often
requiring the fingers to be placed at specific regions to actuate movable
parts. To address these challenges, we propose a novel coordinated diffusion
noise optimization framework. Specifically, we perform noise-space optimization
over three specialized diffusion models for the body, left hand, and right
hand, each trained on its own motion dataset to improve generalization.
Coordination naturally emerges through gradient flow along the human kinematic
chain, allowing the global body posture to adapt in response to hand motion
objectives with high fidelity. To further enhance precision in hand-object
interaction, we adopt a unified representation based on basis point sets (BPS),
where end-effector positions are encoded as distances to the same BPS used for
object geometry. This unified representation captures fine-grained spatial
relationships between the hand and articulated object parts, and the resulting
trajectories serve as targets to guide the optimization of diffusion noise,
producing highly accurate interaction motion. We conduct extensive experiments
demonstrating that our method outperforms existing approaches in motion quality
and physical plausibility, and enables various capabilities such as object pose
control, simultaneous walking and manipulation, and whole-body generation from
hand-only data.