ChatPaper.aiChatPaper

FürElise: Erfassung und physische Synthese von Handbewegungen bei Klavieraufführungen

FürElise: Capturing and Physically Synthesizing Hand Motions of Piano Performance

October 8, 2024
Autoren: Ruocheng Wang, Pei Xu, Haochen Shi, Elizabeth Schumann, C. Karen Liu
cs.AI

Zusammenfassung

Das Klavierspielen erfordert eine agile, präzise und koordinierte Handsteuerung, die die Grenzen der Geschicklichkeit ausreizt. Handbewegungsmodelle mit der Raffinesse, um das Klavierspielen genau nachzubilden, haben eine Vielzahl von Anwendungen in der Charakteranimation, der verkörperten KI, der Biomechanik und VR/AR. In diesem Artikel erstellen wir einen bisher einzigartigen Datensatz im großen Maßstab, der etwa 10 Stunden 3D-Handbewegungen und Audio von 15 Elite-Pianisten enthält, die 153 Stücke klassischer Musik spielen. Um natürliche Aufführungen einzufangen, haben wir ein markerloses Setup entworfen, bei dem Bewegungen aus Mehrkameravideos mithilfe modernster Pose-Schätzungmodelle rekonstruiert werden. Die Bewegungsdaten werden durch inverse Kinematik unter Verwendung der hochauflösenden MIDI-Tasten-Druckdaten, die von Sensoren in einem spezialisierten Yamaha Disklavier-Klavier erhalten wurden, weiter verfeinert. Unter Nutzung des gesammelten Datensatzes haben wir eine Pipeline entwickelt, die physikalisch plausible Handbewegungen für Noten außerhalb des Datensatzes synthetisieren kann. Unser Ansatz verwendet eine Kombination aus Imitationslernen und Verstärkungslernen, um Richtlinien für physikbasierte bimanuelle Steuerung zu erhalten, die die Interaktion zwischen Händen und Klaviertasten umfasst. Um das Problem der Abtasteffizienz mit dem großen Bewegungsdatensatz zu lösen, verwenden wir ein Diffusionsmodell, um natürliche Referenzbewegungen zu generieren, die hochrangige Trajektorien- und Fingersatzinformationen bereitstellen. Die generierte Referenzbewegung allein bietet jedoch keine ausreichende Genauigkeit für die Modellierung der Klavierleistung. Wir haben die Daten dann weiter durch Verwendung musikalischer Ähnlichkeit ergänzt, um ähnliche Bewegungen aus dem erfassten Datensatz abzurufen und die Präzision der Verstärkungslernrichtlinie zu steigern. Mit der vorgeschlagenen Methode generiert unser Modell natürliche, geschickte Bewegungen, die auf Musik außerhalb des Trainingsdatensatzes verallgemeinern.
English
Piano playing requires agile, precise, and coordinated hand control that stretches the limits of dexterity. Hand motion models with the sophistication to accurately recreate piano playing have a wide range of applications in character animation, embodied AI, biomechanics, and VR/AR. In this paper, we construct a first-of-its-kind large-scale dataset that contains approximately 10 hours of 3D hand motion and audio from 15 elite-level pianists playing 153 pieces of classical music. To capture natural performances, we designed a markerless setup in which motions are reconstructed from multi-view videos using state-of-the-art pose estimation models. The motion data is further refined via inverse kinematics using the high-resolution MIDI key-pressing data obtained from sensors in a specialized Yamaha Disklavier piano. Leveraging the collected dataset, we developed a pipeline that can synthesize physically-plausible hand motions for musical scores outside of the dataset. Our approach employs a combination of imitation learning and reinforcement learning to obtain policies for physics-based bimanual control involving the interaction between hands and piano keys. To solve the sampling efficiency problem with the large motion dataset, we use a diffusion model to generate natural reference motions, which provide high-level trajectory and fingering (finger order and placement) information. However, the generated reference motion alone does not provide sufficient accuracy for piano performance modeling. We then further augmented the data by using musical similarity to retrieve similar motions from the captured dataset to boost the precision of the RL policy. With the proposed method, our model generates natural, dexterous motions that generalize to music from outside the training dataset.

Summary

AI-Generated Summary

PDF74November 16, 2024