ChatPaper.aiChatPaper

HandX: 양손 동작 및 상호작용 생성의 확장

HandX: Scaling Bimanual Motion and Interaction Generation

March 30, 2026
저자: Zimu Zhang, Yucheng Zhang, Xiyan Xu, Ziyin Wang, Sirui Xu, Kai Zhou, Bing Zhou, Chuan Guo, Jian Wang, Yu-Xiong Wang, Liang-Yan Gui
cs.AI

초록

인간 모션 합성 기술은 빠르게 발전해 왔지만, 사실적인 손 동작과 양손 상호작용은 여전히 충분히 연구되지 않았다. 전신 모델은 종종 정교한 행동, 손가락 관절 움직임, 접촉 타이밍, 양손 간 조정을 이끄는 세밀한 신호를 놓치며, 기존 자료들은 미세한 손가락 역학과 협응을 포착하는 고품질 양손 동작 시퀀스를 제공하지 못한다. 이러한 공백을 메우기 위해 우리는 데이터, 주석, 평가를 아우르는 통합 기반인 HandX를 제안한다. 우리는 기존 데이터셋을 통합하고 품질에 따라 필터링하며, 세부적인 손가락 역학을 갖춘 저조하게 연구된 양손 상호작용을 대상으로 새로운 모션 캡처 데이터셋을 수집했다. 확장 가능한 주석 생성을 위해, 우리는 접촉 이벤트 및 손가락 굽힘과 같은 대표적인 모션 특징을 추출한 다음, 대규모 언어 모델의 추론을 활용하여 이러한 특징과 일치하는 세밀하고 의미론적으로 풍부한 설명을 생성하는 분리 전략을 도입했다. 결과적인 데이터와 주석을 바탕으로, 우리는 다양한 조건 설정 모드를 갖춘 확산 모델과 자기회귀 모델의 성능을 벤치마크했다. 실험 결과는 우리가 새롭게 제안한 손 중심 평가 지표로 뒷받침되는 고품질의 정교한 모션 생성 능력을 입증했다. 우리는 더 크고 고품질의 데이터셋으로 훈련된 더 큰 모델이 의미론적으로 더 일관된 양손 동작을 생성한다는 명확한 규모 확장 경향을 추가로 관찰했다. 향후 연구를 지원하기 위해 우리의 데이터셋을 공개한다.
English
Synthesizing human motion has advanced rapidly, yet realistic hand motion and bimanual interaction remain underexplored. Whole-body models often miss the fine-grained cues that drive dexterous behavior, finger articulation, contact timing, and inter-hand coordination, and existing resources lack high-fidelity bimanual sequences that capture nuanced finger dynamics and collaboration. To fill this gap, we present HandX, a unified foundation spanning data, annotation, and evaluation. We consolidate and filter existing datasets for quality, and collect a new motion-capture dataset targeting underrepresented bimanual interactions with detailed finger dynamics. For scalable annotation, we introduce a decoupled strategy that extracts representative motion features, e.g., contact events and finger flexion, and then leverages reasoning from large language models to produce fine-grained, semantically rich descriptions aligned with these features. Building on the resulting data and annotations, we benchmark diffusion and autoregressive models with versatile conditioning modes. Experiments demonstrate high-quality dexterous motion generation, supported by our newly proposed hand-focused metrics. We further observe clear scaling trends: larger models trained on larger, higher-quality datasets produce more semantically coherent bimanual motion. Our dataset is released to support future research.
PDF92April 1, 2026