ChatPaper.aiChatPaper

HandX: Skalierung der Erzeugung bimanueller Bewegungen und Interaktionen

HandX: Scaling Bimanual Motion and Interaction Generation

March 30, 2026
Autoren: Zimu Zhang, Yucheng Zhang, Xiyan Xu, Ziyin Wang, Sirui Xu, Kai Zhou, Bing Zhou, Chuan Guo, Jian Wang, Yu-Xiong Wang, Liang-Yan Gui
cs.AI

Zusammenfassung

Die Synthese menschlicher Bewegungen hat rasante Fortschritte gemacht, doch realistische Handbewegungen und bimanuelle Interaktionen bleiben weitgehend unerforscht. Ganzkörpermodelle erfassen oft nicht die feinkörnigen Merkmale, die geschicktes Verhalten, Fingerartikulation, Kontaktzeitpunkte und Inter-Hand-Koordination antreiben, und bestehende Ressourcen mangelt es an hochauflösenden bimanuellen Sequenzen, die nuancierte Fingerdynamiken und Zusammenarbeit erfassen. Um diese Lücke zu schließen, präsentieren wir HandX, eine einheitliche Grundlage, die Daten, Annotation und Evaluation umspannt. Wir konsolidieren und filtern bestehende Datensätze hinsichtlich ihrer Qualität und erfassen einen neuen Motion-Capture-Datensatz, der unterrepräsentierte bimanuelle Interaktionen mit detaillierten Fingerdynamiken abzielt. Für skalierbare Annotation führen wir eine entkoppelte Strategie ein, die repräsentative Bewegungsmerkmale extrahiert, z.B. Kontaktereignisse und Fingerbeugung, und dann Reasoning großer Sprachmodelle nutzt, um feinkörnige, semantisch reiche Beschreibungen zu erzeugen, die mit diesen Merkmalen abgestimmt sind. Aufbauend auf den resultierenden Daten und Annotationen benchmarken wir Diffusions- und autoregressive Modelle mit vielseitigen Konditionierungsmodi. Experimente demonstrieren hochwertige Erzeugung geschickter Bewegungen, gestützt durch unsere neu vorgeschlagenen handzentrierten Metriken. Wir beobachten weiterhin klare Skalierungstrends: größere Modelle, die auf größeren, qualitativ hochwertigeren Datensätzen trainiert werden, erzeugen semantisch kohärentere bimanuelle Bewegungen. Unser Datensatz wird veröffentlicht, um zukünftige Forschung zu unterstützen.
English
Synthesizing human motion has advanced rapidly, yet realistic hand motion and bimanual interaction remain underexplored. Whole-body models often miss the fine-grained cues that drive dexterous behavior, finger articulation, contact timing, and inter-hand coordination, and existing resources lack high-fidelity bimanual sequences that capture nuanced finger dynamics and collaboration. To fill this gap, we present HandX, a unified foundation spanning data, annotation, and evaluation. We consolidate and filter existing datasets for quality, and collect a new motion-capture dataset targeting underrepresented bimanual interactions with detailed finger dynamics. For scalable annotation, we introduce a decoupled strategy that extracts representative motion features, e.g., contact events and finger flexion, and then leverages reasoning from large language models to produce fine-grained, semantically rich descriptions aligned with these features. Building on the resulting data and annotations, we benchmark diffusion and autoregressive models with versatile conditioning modes. Experiments demonstrate high-quality dexterous motion generation, supported by our newly proposed hand-focused metrics. We further observe clear scaling trends: larger models trained on larger, higher-quality datasets produce more semantically coherent bimanual motion. Our dataset is released to support future research.
PDF92April 1, 2026