ChatPaper.aiChatPaper

CoDA: 関節物体の全身操作のための協調的拡散ノイズ最適化

CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects

May 27, 2025
著者: Huaijin Pi, Zhi Cen, Zhiyang Dou, Taku Komura
cs.AI

要旨

全身を含む関節物体の操作(身体運動、手の運動、物体の運動)を合成することは、バーチャルヒューマンやロボティクスにおける幅広い応用において重要でありながらも困難な課題です。その核心的な課題は二つあります。第一に、現実的な全身運動を実現するためには、手と身体の他の部分の間の緊密な連携が必要です。なぜなら、操作中にそれらの動きは相互に依存しているからです。第二に、関節物体の操作は通常、高い自由度を伴い、より高い精度を要求します。多くの場合、可動部分を動作させるために指を特定の位置に配置する必要があります。これらの課題に対処するため、我々は新たな協調的拡散ノイズ最適化フレームワークを提案します。具体的には、身体、左手、右手それぞれの運動データセットで訓練された専用の拡散モデルに対して、ノイズ空間最適化を実行し、汎化性能を向上させます。人間の運動学的連鎖に沿った勾配流によって自然に連携が生まれ、手の運動目標に応じて全身姿勢が高忠実度で適応します。さらに、手と物体の相互作用の精度を向上させるため、基底点集合(BPS)に基づく統一的な表現を採用します。ここでは、エンドエフェクタの位置が、物体の形状に使用されるのと同じBPSまでの距離として符号化されます。この統一的な表現は、手と関節物体の部分間の微細な空間的関係を捉え、結果として得られる軌跡は拡散ノイズの最適化を導く目標として機能し、非常に正確な相互作用運動を生成します。我々は広範な実験を行い、本手法が運動の品質と物理的妥当性において既存の手法を上回り、物体姿勢制御、歩行と操作の同時実行、手のみのデータからの全身生成といった様々な能力を実現することを示しました。
English
Synthesizing whole-body manipulation of articulated objects, including body motion, hand motion, and object motion, is a critical yet challenging task with broad applications in virtual humans and robotics. The core challenges are twofold. First, achieving realistic whole-body motion requires tight coordination between the hands and the rest of the body, as their movements are interdependent during manipulation. Second, articulated object manipulation typically involves high degrees of freedom and demands higher precision, often requiring the fingers to be placed at specific regions to actuate movable parts. To address these challenges, we propose a novel coordinated diffusion noise optimization framework. Specifically, we perform noise-space optimization over three specialized diffusion models for the body, left hand, and right hand, each trained on its own motion dataset to improve generalization. Coordination naturally emerges through gradient flow along the human kinematic chain, allowing the global body posture to adapt in response to hand motion objectives with high fidelity. To further enhance precision in hand-object interaction, we adopt a unified representation based on basis point sets (BPS), where end-effector positions are encoded as distances to the same BPS used for object geometry. This unified representation captures fine-grained spatial relationships between the hand and articulated object parts, and the resulting trajectories serve as targets to guide the optimization of diffusion noise, producing highly accurate interaction motion. We conduct extensive experiments demonstrating that our method outperforms existing approaches in motion quality and physical plausibility, and enables various capabilities such as object pose control, simultaneous walking and manipulation, and whole-body generation from hand-only data.
PDF202June 2, 2025