CoDA: 관절형 물체의 전신 조작을 위한 조정된 확산 노이즈 최적화
CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects
May 27, 2025
저자: Huaijin Pi, Zhi Cen, Zhiyang Dou, Taku Komura
cs.AI
초록
관절형 물체의 전신 조작(신체 동작, 손 동작, 물체 동작 포함)을 합성하는 것은 가상 인간과 로보틱스 분야에서 광범위한 응용 가능성을 지닌 중요한 과제이면서도 도전적인 작업입니다. 이 문제의 핵심적인 도전 과제는 두 가지입니다. 첫째, 현실적인 전신 동작을 달성하기 위해서는 손과 신체의 나머지 부분 간의 긴밀한 조정이 필요합니다. 이는 조작 과정에서 이들의 움직임이 상호 의존적이기 때문입니다. 둘째, 관절형 물체 조작은 일반적으로 높은 자유도를 가지며 더 높은 정밀도를 요구하는데, 이는 움직이는 부분을 작동시키기 위해 손가락을 특정 영역에 정확히 위치시켜야 하는 경우가 많기 때문입니다. 이러한 도전 과제를 해결하기 위해, 우리는 새로운 조정된 확산 노이즈 최적화 프레임워크를 제안합니다. 구체적으로, 우리는 신체, 왼손, 오른손 각각을 위한 전문화된 확산 모델에 대해 노이즈 공간 최적화를 수행하며, 각 모델은 자체 동작 데이터셋으로 학습되어 일반화 성능을 향상시킵니다. 조정은 인간 운동학적 체인을 따라 흐르는 그래디언트를 통해 자연스럽게 이루어지며, 이는 손 동작 목표에 대응하여 전신 자세를 높은 충실도로 적응시킬 수 있게 합니다. 손-물체 상호작용의 정밀도를 더욱 향상시키기 위해, 우리는 기저 점 집합(BPS) 기반의 통합 표현을 채택합니다. 여기서 엔드 이펙터 위치는 물체 기하학에 사용된 동일한 BPS까지의 거리로 인코딩됩니다. 이 통합 표현은 손과 관절형 물체 부분 간의 미세한 공간적 관계를 포착하며, 결과적으로 생성된 궤적은 확산 노이즈 최적화를 안내하는 목표로 사용되어 매우 정확한 상호작용 동작을 생성합니다. 우리는 광범위한 실험을 통해 우리의 방법이 동작 품질과 물리적 타당성 측면에서 기존 접근법을 능가하며, 물체 자세 제어, 동시에 걷기와 조작 수행, 손 데이터만으로 전신 생성 등 다양한 기능을 가능하게 함을 입증했습니다.
English
Synthesizing whole-body manipulation of articulated objects, including body
motion, hand motion, and object motion, is a critical yet challenging task with
broad applications in virtual humans and robotics. The core challenges are
twofold. First, achieving realistic whole-body motion requires tight
coordination between the hands and the rest of the body, as their movements are
interdependent during manipulation. Second, articulated object manipulation
typically involves high degrees of freedom and demands higher precision, often
requiring the fingers to be placed at specific regions to actuate movable
parts. To address these challenges, we propose a novel coordinated diffusion
noise optimization framework. Specifically, we perform noise-space optimization
over three specialized diffusion models for the body, left hand, and right
hand, each trained on its own motion dataset to improve generalization.
Coordination naturally emerges through gradient flow along the human kinematic
chain, allowing the global body posture to adapt in response to hand motion
objectives with high fidelity. To further enhance precision in hand-object
interaction, we adopt a unified representation based on basis point sets (BPS),
where end-effector positions are encoded as distances to the same BPS used for
object geometry. This unified representation captures fine-grained spatial
relationships between the hand and articulated object parts, and the resulting
trajectories serve as targets to guide the optimization of diffusion noise,
producing highly accurate interaction motion. We conduct extensive experiments
demonstrating that our method outperforms existing approaches in motion quality
and physical plausibility, and enables various capabilities such as object pose
control, simultaneous walking and manipulation, and whole-body generation from
hand-only data.