HandX : Mise à l'échelle de la génération de mouvements et d'interactions bimanuelles
HandX: Scaling Bimanual Motion and Interaction Generation
March 30, 2026
Auteurs: Zimu Zhang, Yucheng Zhang, Xiyan Xu, Ziyin Wang, Sirui Xu, Kai Zhou, Bing Zhou, Chuan Guo, Jian Wang, Yu-Xiong Wang, Liang-Yan Gui
cs.AI
Résumé
La synthèse du mouvement humain a progressé rapidement, mais le mouvement réaliste des mains et l’interaction bimanuelle restent peu explorés. Les modèles du corps entier négligent souvent les indices fins qui régissent les comportements dextres, l’articulation des doigts, la synchronisation des contacts et la coordination entre les mains, tandis que les ressources existantes manquent de séquences bimanuelles de haute fidélité capturant la dynamique nuancée des doigts et leur collaboration. Pour combler cette lacune, nous présentons HandX, une fondation unifiée couvrant les données, l’annotation et l’évaluation. Nous consolidons et filtrons des jeux de données existants pour en garantir la qualité, et collectons un nouveau jeu de données de capture de mouvement ciblant les interactions bimanuelles sous-représentées, avec une dynamique détaillée des doigts. Pour une annotation scalable, nous introduisons une stratégie découplée qui extrait des caractéristiques motionnelles représentatives, telles que les événements de contact et la flexion des doigts, puis utilise le raisonnement des grands modèles de langage pour produire des descriptions granulaires et sémantiquement riches alignées sur ces caractéristiques. En nous appuyant sur les données et annotations résultantes, nous évaluons des modèles de diffusion et autogréssifs avec des modes de conditionnement variés. Les expériences démontrent une génération de mouvement dextre de haute qualité, soutenue par nos nouvelles métriques centrées sur la main. Nous observons également des tendances claires de mise à l’échelle : les modèles plus grands, entraînés sur des jeux de données plus vastes et de meilleure qualité, produisent un mouvement bimanuel plus cohérent sémantiquement. Notre jeu de données est publié pour soutenir les recherches futures.
English
Synthesizing human motion has advanced rapidly, yet realistic hand motion and bimanual interaction remain underexplored. Whole-body models often miss the fine-grained cues that drive dexterous behavior, finger articulation, contact timing, and inter-hand coordination, and existing resources lack high-fidelity bimanual sequences that capture nuanced finger dynamics and collaboration. To fill this gap, we present HandX, a unified foundation spanning data, annotation, and evaluation. We consolidate and filter existing datasets for quality, and collect a new motion-capture dataset targeting underrepresented bimanual interactions with detailed finger dynamics. For scalable annotation, we introduce a decoupled strategy that extracts representative motion features, e.g., contact events and finger flexion, and then leverages reasoning from large language models to produce fine-grained, semantically rich descriptions aligned with these features. Building on the resulting data and annotations, we benchmark diffusion and autoregressive models with versatile conditioning modes. Experiments demonstrate high-quality dexterous motion generation, supported by our newly proposed hand-focused metrics. We further observe clear scaling trends: larger models trained on larger, higher-quality datasets produce more semantically coherent bimanual motion. Our dataset is released to support future research.