ChatPaper.aiChatPaper

HandX: 両手動作とインタラクション生成のスケーリング

HandX: Scaling Bimanual Motion and Interaction Generation

March 30, 2026
著者: Zimu Zhang, Yucheng Zhang, Xiyan Xu, Ziyin Wang, Sirui Xu, Kai Zhou, Bing Zhou, Chuan Guo, Jian Wang, Yu-Xiong Wang, Liang-Yan Gui
cs.AI

要旨

人間の動作合成は急速に進歩しているものの、手の動きや両手操作のリアリティについては未だ研究が十分とは言えません。全身モデルでは、器用な動作や指の関節運動、接触タイミング、両手間の協調を駆動する微細な手がかりが見過ごされがちです。また、既存のデータリソースには、微妙な指の動態や協調動作を捉えた高精細な両手動作シーケンスが不足しています。このギャップを埋めるため、我々はデータ、注釈、評価を統合した基盤モデルHandXを提案します。既存データセットを統合し品質でフィルタリングするとともに、十分に表現されていない両手操作を詳細な指の動態とともに捉えた新しいモーションキャプチャデータセットを収集しました。スケーラブルな注釈付けのために、接触イベントや指の屈曲など代表的な動作特徴を抽出し、その後大規模言語モデルの推論を活用してこれらの特徴に沿った意味的に豊かな詳細記述を生成する、分離型戦略を導入しました。結果として得られたデータと注釈に基づき、多様な条件付けが可能な拡散モデルと自己回帰モデルのベンチマークを実施しました。実験により、新たに提案した手動作に特化した評価指標によって裏付けられた、高品質な巧緻動作生成が実証されました。さらに、大規模で高品質なデータセットで訓練された大規模モデルほど、意味的に一貫性のある両手動作を生成するという明確なスケーリング傾向が観察されました。今後の研究発展のため、本データセットを公開します。
English
Synthesizing human motion has advanced rapidly, yet realistic hand motion and bimanual interaction remain underexplored. Whole-body models often miss the fine-grained cues that drive dexterous behavior, finger articulation, contact timing, and inter-hand coordination, and existing resources lack high-fidelity bimanual sequences that capture nuanced finger dynamics and collaboration. To fill this gap, we present HandX, a unified foundation spanning data, annotation, and evaluation. We consolidate and filter existing datasets for quality, and collect a new motion-capture dataset targeting underrepresented bimanual interactions with detailed finger dynamics. For scalable annotation, we introduce a decoupled strategy that extracts representative motion features, e.g., contact events and finger flexion, and then leverages reasoning from large language models to produce fine-grained, semantically rich descriptions aligned with these features. Building on the resulting data and annotations, we benchmark diffusion and autoregressive models with versatile conditioning modes. Experiments demonstrate high-quality dexterous motion generation, supported by our newly proposed hand-focused metrics. We further observe clear scaling trends: larger models trained on larger, higher-quality datasets produce more semantically coherent bimanual motion. Our dataset is released to support future research.
PDF92April 1, 2026