ChatPaper.aiChatPaper

HandX: Масштабирование генерации двуручных движений и взаимодействий

HandX: Scaling Bimanual Motion and Interaction Generation

March 30, 2026
Авторы: Zimu Zhang, Yucheng Zhang, Xiyan Xu, Ziyin Wang, Sirui Xu, Kai Zhou, Bing Zhou, Chuan Guo, Jian Wang, Yu-Xiong Wang, Liang-Yan Gui
cs.AI

Аннотация

Синтез движений человека достиг значительного прогресса, однако реалистичное движение кистей и двуручное взаимодействие остаются малоизученными. Модели всего тела часто упускают тонкие нюансы, определяющие ловкое поведение: артикуляцию пальцев, временные параметры контакта и координацию между руками. Существующие ресурсы не содержат высококачественных записей двуручных движений, фиксирующих сложную динамику пальцев и их взаимодействие. Чтобы восполнить этот пробел, мы представляем HandX — унифицированную основу, включающую данные, разметку и оценку. Мы объединили и отфильтровали существующие наборы данных по качеству и собрали новый набор данных Motion Capture, ориентированный на недостаточно представленные двуручные взаимодействия с детальной динамикой пальцев. Для масштабируемой разметки мы предлагаем раздельную стратегию: сначала извлекаются репрезентативные признаки движения (например, события контакта и сгибание пальцев), а затем с помощью языковых моделей генерируются семантически насыщенные описания, согласованные с этими признаками. На основе полученных данных и разметки мы провели сравнительный анализ диффузионных и авторегрессионных моделей с различными режимами кондиционирования. Эксперименты демонстрируют генерацию высококачественных ловких движений, что подтверждается нашими новыми метриками, сфокусированными на кистях. Мы также наблюдаем четкую тенденцию масштабирования: более крупные модели, обученные на больших и качественных наборах данных, генерируют более семантически согласованные двуручные движения. Наш набор данных опубликован для поддержки будущих исследований.
English
Synthesizing human motion has advanced rapidly, yet realistic hand motion and bimanual interaction remain underexplored. Whole-body models often miss the fine-grained cues that drive dexterous behavior, finger articulation, contact timing, and inter-hand coordination, and existing resources lack high-fidelity bimanual sequences that capture nuanced finger dynamics and collaboration. To fill this gap, we present HandX, a unified foundation spanning data, annotation, and evaluation. We consolidate and filter existing datasets for quality, and collect a new motion-capture dataset targeting underrepresented bimanual interactions with detailed finger dynamics. For scalable annotation, we introduce a decoupled strategy that extracts representative motion features, e.g., contact events and finger flexion, and then leverages reasoning from large language models to produce fine-grained, semantically rich descriptions aligned with these features. Building on the resulting data and annotations, we benchmark diffusion and autoregressive models with versatile conditioning modes. Experiments demonstrate high-quality dexterous motion generation, supported by our newly proposed hand-focused metrics. We further observe clear scaling trends: larger models trained on larger, higher-quality datasets produce more semantically coherent bimanual motion. Our dataset is released to support future research.
PDF92April 1, 2026