HandX: Scalabilità nella Generazione di Movimenti e Interazioni Bimanuali
HandX: Scaling Bimanual Motion and Interaction Generation
March 30, 2026
Autori: Zimu Zhang, Yucheng Zhang, Xiyan Xu, Ziyin Wang, Sirui Xu, Kai Zhou, Bing Zhou, Chuan Guo, Jian Wang, Yu-Xiong Wang, Liang-Yan Gui
cs.AI
Abstract
La sintesi del movimento umano ha compiuto rapidi progressi, ma il movimento realistico delle mani e l'interazione bimanuale rimangono ambiti poco esplorati. I modelli per il corpo intero spesso trascurano i segnali granulari che guidano il comportamento abile, l'articolazione delle dita, la tempistica del contatto e il coordinamento inter-manuale, mentre le risorse esistenti mancano di sequenze bimanuali ad alta fedeltà che catturino le dinamiche raffinate delle dita e la loro collaborazione. Per colmare questa lacuna, presentiamo HandX, una base unificata che abbraccia dati, annotazione e valutazione. Consolidiamo e filtriamo dataset esistenti per garantire qualità, e raccogliamo un nuovo dataset di motion capture focalizzato su interazioni bimanuali sottorappresentate, con dinamiche dettagliate delle dita. Per un'annotazione scalabile, introduciamo una strategia disaccoppiata che estrae caratteristiche di movimento rappresentative, ad esempio eventi di contatto e flessione delle dita, per poi sfruttare il ragionamento di modelli linguistici di grandi dimensioni per produrre descrizioni granulari e semanticamente ricche, allineate a queste caratteristiche. Basandoci sui dati e le annotazioni risultanti, valutiamo modelli diffusion e autoregressivi con modalità di condizionamento versatili. Gli esperimenti dimostrano una generazione di movimento abile di alta qualità, supportata dalle nostre nuove metriche focalizzate sulla mano. Osserviamo inoltre chiari trend di scaling: modelli più grandi addestrati su dataset più ampi e di qualità superiore producono movimenti bimanuali semanticamente più coerenti. Il nostro dataset viene rilasciato per supportare la ricerca futura.
English
Synthesizing human motion has advanced rapidly, yet realistic hand motion and bimanual interaction remain underexplored. Whole-body models often miss the fine-grained cues that drive dexterous behavior, finger articulation, contact timing, and inter-hand coordination, and existing resources lack high-fidelity bimanual sequences that capture nuanced finger dynamics and collaboration. To fill this gap, we present HandX, a unified foundation spanning data, annotation, and evaluation. We consolidate and filter existing datasets for quality, and collect a new motion-capture dataset targeting underrepresented bimanual interactions with detailed finger dynamics. For scalable annotation, we introduce a decoupled strategy that extracts representative motion features, e.g., contact events and finger flexion, and then leverages reasoning from large language models to produce fine-grained, semantically rich descriptions aligned with these features. Building on the resulting data and annotations, we benchmark diffusion and autoregressive models with versatile conditioning modes. Experiments demonstrate high-quality dexterous motion generation, supported by our newly proposed hand-focused metrics. We further observe clear scaling trends: larger models trained on larger, higher-quality datasets produce more semantically coherent bimanual motion. Our dataset is released to support future research.