FürElise : Capturer et synthétiser physiquement les mouvements de la main lors d'une performance au piano

papers.abstract

La pratique du piano nécessite un contrôle agile, précis et coordonné des mains qui repousse les limites de la dextérité. Les modèles de mouvement des mains capables de recréer de manière précise la pratique du piano ont de nombreuses applications dans l'animation de personnages, l'IA incarnée, la biomécanique et la RV/RA. Dans cet article, nous avons construit un ensemble de données à grande échelle unique en son genre contenant environ 10 heures de mouvements tridimensionnels des mains et d'audio de 15 pianistes de niveau élite interprétant 153 morceaux de musique classique. Pour capturer des performances naturelles, nous avons conçu une configuration sans marqueurs dans laquelle les mouvements sont reconstruits à partir de vidéos multi-vues à l'aide de modèles d'estimation de pose de pointe. Les données de mouvement sont ensuite affinées via une cinématique inverse en utilisant les données de frappe de touches MIDI haute résolution obtenues à partir de capteurs dans un piano spécialisé Yamaha Disklavier. En exploitant l'ensemble de données collecté, nous avons développé un processus qui peut synthétiser des mouvements des mains physiquement plausibles pour des partitions musicales qui ne font pas partie de l'ensemble de données. Notre approche combine l'apprentissage par imitation et l'apprentissage par renforcement pour obtenir des politiques de contrôle bimanuel basées sur la physique impliquant l'interaction entre les mains et les touches du piano. Pour résoudre le problème d'efficacité d'échantillonnage avec le grand ensemble de données de mouvement, nous utilisons un modèle de diffusion pour générer des mouvements de référence naturels, qui fournissent des informations de trajectoire de haut niveau et de doigté (ordre et placement des doigts). Cependant, le mouvement de référence généré seul ne fournit pas une précision suffisante pour la modélisation des performances pianistiques. Nous avons ensuite enrichi les données en utilisant la similarité musicale pour récupérer des mouvements similaires dans l'ensemble de données capturé afin d'améliorer la précision de la politique de renforcement. Avec la méthode proposée, notre modèle génère des mouvements naturels et habiles qui se généralisent à la musique en dehors de l'ensemble de données d'entraînement.

English

Piano playing requires agile, precise, and coordinated hand control that stretches the limits of dexterity. Hand motion models with the sophistication to accurately recreate piano playing have a wide range of applications in character animation, embodied AI, biomechanics, and VR/AR. In this paper, we construct a first-of-its-kind large-scale dataset that contains approximately 10 hours of 3D hand motion and audio from 15 elite-level pianists playing 153 pieces of classical music. To capture natural performances, we designed a markerless setup in which motions are reconstructed from multi-view videos using state-of-the-art pose estimation models. The motion data is further refined via inverse kinematics using the high-resolution MIDI key-pressing data obtained from sensors in a specialized Yamaha Disklavier piano. Leveraging the collected dataset, we developed a pipeline that can synthesize physically-plausible hand motions for musical scores outside of the dataset. Our approach employs a combination of imitation learning and reinforcement learning to obtain policies for physics-based bimanual control involving the interaction between hands and piano keys. To solve the sampling efficiency problem with the large motion dataset, we use a diffusion model to generate natural reference motions, which provide high-level trajectory and fingering (finger order and placement) information. However, the generated reference motion alone does not provide sufficient accuracy for piano performance modeling. We then further augmented the data by using musical similarity to retrieve similar motions from the captured dataset to boost the precision of the RL policy. With the proposed method, our model generates natural, dexterous motions that generalize to music from outside the training dataset.

FürElise : Capturer et synthétiser physiquement les mouvements de la main lors d'une performance au piano

FürElise: Capturing and Physically Synthesizing Hand Motions of Piano Performance

papers.abstract

Support