ChatPaper.aiChatPaper

CoDA: 관절형 물체의 전신 조작을 위한 조정된 확산 노이즈 최적화

CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects

May 27, 2025
저자: Huaijin Pi, Zhi Cen, Zhiyang Dou, Taku Komura
cs.AI

초록

관절형 물체의 전신 조작(신체 동작, 손 동작, 물체 동작 포함)을 합성하는 것은 가상 인간과 로보틱스 분야에서 광범위한 응용 가능성을 지닌 중요한 과제이면서도 도전적인 작업입니다. 이 문제의 핵심적인 도전 과제는 두 가지입니다. 첫째, 현실적인 전신 동작을 달성하기 위해서는 손과 신체의 나머지 부분 간의 긴밀한 조정이 필요합니다. 이는 조작 과정에서 이들의 움직임이 상호 의존적이기 때문입니다. 둘째, 관절형 물체 조작은 일반적으로 높은 자유도를 가지며 더 높은 정밀도를 요구하는데, 이는 움직이는 부분을 작동시키기 위해 손가락을 특정 영역에 정확히 위치시켜야 하는 경우가 많기 때문입니다. 이러한 도전 과제를 해결하기 위해, 우리는 새로운 조정된 확산 노이즈 최적화 프레임워크를 제안합니다. 구체적으로, 우리는 신체, 왼손, 오른손 각각을 위한 전문화된 확산 모델에 대해 노이즈 공간 최적화를 수행하며, 각 모델은 자체 동작 데이터셋으로 학습되어 일반화 성능을 향상시킵니다. 조정은 인간 운동학적 체인을 따라 흐르는 그래디언트를 통해 자연스럽게 이루어지며, 이는 손 동작 목표에 대응하여 전신 자세를 높은 충실도로 적응시킬 수 있게 합니다. 손-물체 상호작용의 정밀도를 더욱 향상시키기 위해, 우리는 기저 점 집합(BPS) 기반의 통합 표현을 채택합니다. 여기서 엔드 이펙터 위치는 물체 기하학에 사용된 동일한 BPS까지의 거리로 인코딩됩니다. 이 통합 표현은 손과 관절형 물체 부분 간의 미세한 공간적 관계를 포착하며, 결과적으로 생성된 궤적은 확산 노이즈 최적화를 안내하는 목표로 사용되어 매우 정확한 상호작용 동작을 생성합니다. 우리는 광범위한 실험을 통해 우리의 방법이 동작 품질과 물리적 타당성 측면에서 기존 접근법을 능가하며, 물체 자세 제어, 동시에 걷기와 조작 수행, 손 데이터만으로 전신 생성 등 다양한 기능을 가능하게 함을 입증했습니다.
English
Synthesizing whole-body manipulation of articulated objects, including body motion, hand motion, and object motion, is a critical yet challenging task with broad applications in virtual humans and robotics. The core challenges are twofold. First, achieving realistic whole-body motion requires tight coordination between the hands and the rest of the body, as their movements are interdependent during manipulation. Second, articulated object manipulation typically involves high degrees of freedom and demands higher precision, often requiring the fingers to be placed at specific regions to actuate movable parts. To address these challenges, we propose a novel coordinated diffusion noise optimization framework. Specifically, we perform noise-space optimization over three specialized diffusion models for the body, left hand, and right hand, each trained on its own motion dataset to improve generalization. Coordination naturally emerges through gradient flow along the human kinematic chain, allowing the global body posture to adapt in response to hand motion objectives with high fidelity. To further enhance precision in hand-object interaction, we adopt a unified representation based on basis point sets (BPS), where end-effector positions are encoded as distances to the same BPS used for object geometry. This unified representation captures fine-grained spatial relationships between the hand and articulated object parts, and the resulting trajectories serve as targets to guide the optimization of diffusion noise, producing highly accurate interaction motion. We conduct extensive experiments demonstrating that our method outperforms existing approaches in motion quality and physical plausibility, and enables various capabilities such as object pose control, simultaneous walking and manipulation, and whole-body generation from hand-only data.
PDF202June 2, 2025