HandX: Escalonando a Geração de Movimento e Interação Bimanual
HandX: Scaling Bimanual Motion and Interaction Generation
March 30, 2026
Autores: Zimu Zhang, Yucheng Zhang, Xiyan Xu, Ziyin Wang, Sirui Xu, Kai Zhou, Bing Zhou, Chuan Guo, Jian Wang, Yu-Xiong Wang, Liang-Yan Gui
cs.AI
Resumo
A síntese de movimento humano avançou rapidamente, mas o movimento realista das mãos e a interação bimanual permanecem pouco explorados. Modelos de corpo frequentemente ignoram os sinais refinados que orientam o comportamento dextro, a articulação dos dedos, o timing do contacto e a coordenação entre as mãos, e os recursos existentes carecem de sequências bimanuais de alta fidelidade que capturem a dinâmica sutil dos dedos e a sua colaboração. Para preencher esta lacuna, apresentamos o HandX, uma base unificada que abrange dados, anotação e avaliação. Consolidamos e filtramos conjuntos de dados existentes para garantir qualidade, e recolhemos um novo conjunto de dados de captura de movimento focado em interações bimanuais sub-representadas, com dinâmica detalhada dos dedos. Para uma anotação escalável, introduzimos uma estratégia desacoplada que extrai características de movimento representativas, por exemplo, eventos de contacto e flexão dos dedos, e depois aproveita o raciocínio de modelos de linguagem de grande escala para produzir descrições semanticamente ricas e refinadas, alinhadas com essas características. Com base nos dados e anotações resultantes, avaliamos modelos de difusão e autoregressivos com modos de condicionamento versáteis. Experiências demonstram uma geração de movimento dextro de alta qualidade, suportada pelas nossas novas métricas focadas nas mãos. Observamos ainda tendências claras de escalabilidade: modelos maiores treinados em conjuntos de dados maiores e de maior qualidade produzem movimento bimanual semanticamente mais coerente. O nosso conjunto de dados é disponibilizado para apoiar investigação futura.
English
Synthesizing human motion has advanced rapidly, yet realistic hand motion and bimanual interaction remain underexplored. Whole-body models often miss the fine-grained cues that drive dexterous behavior, finger articulation, contact timing, and inter-hand coordination, and existing resources lack high-fidelity bimanual sequences that capture nuanced finger dynamics and collaboration. To fill this gap, we present HandX, a unified foundation spanning data, annotation, and evaluation. We consolidate and filter existing datasets for quality, and collect a new motion-capture dataset targeting underrepresented bimanual interactions with detailed finger dynamics. For scalable annotation, we introduce a decoupled strategy that extracts representative motion features, e.g., contact events and finger flexion, and then leverages reasoning from large language models to produce fine-grained, semantically rich descriptions aligned with these features. Building on the resulting data and annotations, we benchmark diffusion and autoregressive models with versatile conditioning modes. Experiments demonstrate high-quality dexterous motion generation, supported by our newly proposed hand-focused metrics. We further observe clear scaling trends: larger models trained on larger, higher-quality datasets produce more semantically coherent bimanual motion. Our dataset is released to support future research.