FürElise : Capturer et synthétiser physiquement les mouvements de la main lors d'une performance au piano
FürElise: Capturing and Physically Synthesizing Hand Motions of Piano Performance
October 8, 2024
Auteurs: Ruocheng Wang, Pei Xu, Haochen Shi, Elizabeth Schumann, C. Karen Liu
cs.AI
Résumé
La pratique du piano nécessite un contrôle agile, précis et coordonné des mains qui repousse les limites de la dextérité. Les modèles de mouvement des mains capables de recréer de manière précise la pratique du piano ont de nombreuses applications dans l'animation de personnages, l'IA incarnée, la biomécanique et la RV/RA. Dans cet article, nous avons construit un ensemble de données à grande échelle unique en son genre contenant environ 10 heures de mouvements tridimensionnels des mains et d'audio de 15 pianistes de niveau élite interprétant 153 morceaux de musique classique. Pour capturer des performances naturelles, nous avons conçu une configuration sans marqueurs dans laquelle les mouvements sont reconstruits à partir de vidéos multi-vues à l'aide de modèles d'estimation de pose de pointe. Les données de mouvement sont ensuite affinées via une cinématique inverse en utilisant les données de frappe de touches MIDI haute résolution obtenues à partir de capteurs dans un piano spécialisé Yamaha Disklavier. En exploitant l'ensemble de données collecté, nous avons développé un processus qui peut synthétiser des mouvements des mains physiquement plausibles pour des partitions musicales qui ne font pas partie de l'ensemble de données. Notre approche combine l'apprentissage par imitation et l'apprentissage par renforcement pour obtenir des politiques de contrôle bimanuel basées sur la physique impliquant l'interaction entre les mains et les touches du piano. Pour résoudre le problème d'efficacité d'échantillonnage avec le grand ensemble de données de mouvement, nous utilisons un modèle de diffusion pour générer des mouvements de référence naturels, qui fournissent des informations de trajectoire de haut niveau et de doigté (ordre et placement des doigts). Cependant, le mouvement de référence généré seul ne fournit pas une précision suffisante pour la modélisation des performances pianistiques. Nous avons ensuite enrichi les données en utilisant la similarité musicale pour récupérer des mouvements similaires dans l'ensemble de données capturé afin d'améliorer la précision de la politique de renforcement. Avec la méthode proposée, notre modèle génère des mouvements naturels et habiles qui se généralisent à la musique en dehors de l'ensemble de données d'entraînement.
English
Piano playing requires agile, precise, and coordinated hand control that
stretches the limits of dexterity. Hand motion models with the sophistication
to accurately recreate piano playing have a wide range of applications in
character animation, embodied AI, biomechanics, and VR/AR. In this paper, we
construct a first-of-its-kind large-scale dataset that contains approximately
10 hours of 3D hand motion and audio from 15 elite-level pianists playing 153
pieces of classical music. To capture natural performances, we designed a
markerless setup in which motions are reconstructed from multi-view videos
using state-of-the-art pose estimation models. The motion data is further
refined via inverse kinematics using the high-resolution MIDI key-pressing data
obtained from sensors in a specialized Yamaha Disklavier piano. Leveraging the
collected dataset, we developed a pipeline that can synthesize
physically-plausible hand motions for musical scores outside of the dataset.
Our approach employs a combination of imitation learning and reinforcement
learning to obtain policies for physics-based bimanual control involving the
interaction between hands and piano keys. To solve the sampling efficiency
problem with the large motion dataset, we use a diffusion model to generate
natural reference motions, which provide high-level trajectory and fingering
(finger order and placement) information. However, the generated reference
motion alone does not provide sufficient accuracy for piano performance
modeling. We then further augmented the data by using musical similarity to
retrieve similar motions from the captured dataset to boost the precision of
the RL policy. With the proposed method, our model generates natural, dexterous
motions that generalize to music from outside the training dataset.Summary
AI-Generated Summary