HandX: Het Opschalen van Bimanuele Bewegings- en Interactiegeneratie
HandX: Scaling Bimanual Motion and Interaction Generation
March 30, 2026
Auteurs: Zimu Zhang, Yucheng Zhang, Xiyan Xu, Ziyin Wang, Sirui Xu, Kai Zhou, Bing Zhou, Chuan Guo, Jian Wang, Yu-Xiong Wang, Liang-Yan Gui
cs.AI
Samenvatting
Hoewel de synthese van menselijke beweging een snelle vooruitgang heeft geboekt, blijven realistische handbewegingen en bimanuele interacties onderbelicht. Whole-body modellen missen vaak de fijnmazige signalen die behendig gedrag, vingerarticulatie, contacttiming en coördinatie tussen handen sturen, en bestaande bronnen ontberen hoogwaardige bimanuele sequenties die genuanceerde vingerdynamiek en samenwerking vastleggen. Om deze leemte op te vullen, presenteren wij HandX, een uniform fundament dat data, annotatie en evaluatie omvat. Wij consolideren en filteren bestaande datasets op kwaliteit en verzamelen een nieuwe motion-capture dataset die gericht is op ondervertegenwoordigde bimanuele interacties met gedetailleerde vingerdynamiek. Voor schaalbare annotatie introduceren wij een ontkoppelde strategie die representatieve bewegingskenmerken extraheert, zoals contactgebeurtenissen en vingerflexie, en vervolgens redenering van large language models benut om fijnmazige, semantisch rijke beschrijvingen te produceren die op deze kenmerken zijn afgestemd. Voortbouwend op de resulterende data en annotaties, evalueren wij diffusion- en autoregressieve modellen met veelzijdige conditioneringsmogelijkheden. Experimenten tonen hoogwaardige generatie van behendige bewegingen aan, ondersteund door onze nieuw voorgestelde handgerichte metrieken. Wij observeren verder duidelijke schaalwetten: grotere modellen getraind op grotere, kwalitatief betere datasets produceren semantisch coherentere bimanuele beweging. Onze dataset wordt vrijgegeven om toekomstig onderzoek te ondersteunen.
English
Synthesizing human motion has advanced rapidly, yet realistic hand motion and bimanual interaction remain underexplored. Whole-body models often miss the fine-grained cues that drive dexterous behavior, finger articulation, contact timing, and inter-hand coordination, and existing resources lack high-fidelity bimanual sequences that capture nuanced finger dynamics and collaboration. To fill this gap, we present HandX, a unified foundation spanning data, annotation, and evaluation. We consolidate and filter existing datasets for quality, and collect a new motion-capture dataset targeting underrepresented bimanual interactions with detailed finger dynamics. For scalable annotation, we introduce a decoupled strategy that extracts representative motion features, e.g., contact events and finger flexion, and then leverages reasoning from large language models to produce fine-grained, semantically rich descriptions aligned with these features. Building on the resulting data and annotations, we benchmark diffusion and autoregressive models with versatile conditioning modes. Experiments demonstrate high-quality dexterous motion generation, supported by our newly proposed hand-focused metrics. We further observe clear scaling trends: larger models trained on larger, higher-quality datasets produce more semantically coherent bimanual motion. Our dataset is released to support future research.