ChatPaper.aiChatPaper

HandX: Escalando la Generación de Movimiento e Interacción Bimanual

HandX: Scaling Bimanual Motion and Interaction Generation

March 30, 2026
Autores: Zimu Zhang, Yucheng Zhang, Xiyan Xu, Ziyin Wang, Sirui Xu, Kai Zhou, Bing Zhou, Chuan Guo, Jian Wang, Yu-Xiong Wang, Liang-Yan Gui
cs.AI

Resumen

La síntesis de movimiento humano ha avanzado rápidamente, sin embargo, el movimiento realista de las manos y la interacción bimanual siguen siendo áreas poco exploradas. Los modelos de cuerpo completo a menudo pasan por alto los indicios detallados que impulsan el comportamiento diestro, la articulación de los dedos, la sincronización del contacto y la coordinación entre manos, y los recursos existentes carecen de secuencias bimanuales de alta fidelidad que capturen la dinámica sutil de los dedos y su colaboración. Para llenar este vacío, presentamos HandX, una base unificada que abarca datos, anotación y evaluación. Consolidamos y filtramos conjuntos de datos existentes para garantizar su calidad, y recopilamos un nuevo conjunto de datos de captura de movimiento dirigido a interacciones bimanuales poco representadas, con dinámica detallada de los dedos. Para una anotación escalable, introducimos una estrategia desacoplada que extrae características de movimiento representativas, por ejemplo, eventos de contacto y flexión de los dedos, y luego aprovecha el razonamiento de modelos de lenguaje grande para producir descripciones detalladas y semánticamente ricas alineadas con estas características. Sobre la base de los datos y anotaciones resultantes, evaluamos modelos de difusión y autorregresivos con modos de condicionamiento versátiles. Los experimentos demuestran una generación de movimiento diestro de alta calidad, respaldada por nuestras nuevas métricas centradas en las manos. Además, observamos tendencias claras de escalabilidad: modelos más grandes entrenados con conjuntos de datos más extensos y de mayor calidad producen movimientos bimanuales semánticamente más coherentes. Nuestro conjunto de datos se publica para apoyar futuras investigaciones.
English
Synthesizing human motion has advanced rapidly, yet realistic hand motion and bimanual interaction remain underexplored. Whole-body models often miss the fine-grained cues that drive dexterous behavior, finger articulation, contact timing, and inter-hand coordination, and existing resources lack high-fidelity bimanual sequences that capture nuanced finger dynamics and collaboration. To fill this gap, we present HandX, a unified foundation spanning data, annotation, and evaluation. We consolidate and filter existing datasets for quality, and collect a new motion-capture dataset targeting underrepresented bimanual interactions with detailed finger dynamics. For scalable annotation, we introduce a decoupled strategy that extracts representative motion features, e.g., contact events and finger flexion, and then leverages reasoning from large language models to produce fine-grained, semantically rich descriptions aligned with these features. Building on the resulting data and annotations, we benchmark diffusion and autoregressive models with versatile conditioning modes. Experiments demonstrate high-quality dexterous motion generation, supported by our newly proposed hand-focused metrics. We further observe clear scaling trends: larger models trained on larger, higher-quality datasets produce more semantically coherent bimanual motion. Our dataset is released to support future research.
PDF92April 1, 2026