FürElise: Het vastleggen en fysiek synthetiseren van handbewegingen bij pianoprestaties
FürElise: Capturing and Physically Synthesizing Hand Motions of Piano Performance
October 8, 2024
Auteurs: Ruocheng Wang, Pei Xu, Haochen Shi, Elizabeth Schumann, C. Karen Liu
cs.AI
Samenvatting
Piano spelen vereist behendige, precieze en gecoördineerde handcontrole die de grenzen van behendigheid oprekt. Handbewegingsmodellen met de verfijning om piano spelen nauwkeurig na te bootsen hebben een breed scala aan toepassingen in karakteranimatie, embodied AI, biomechanica en VR/AR. In dit artikel construeren we een unieke dataset op grote schaal die ongeveer 10 uur aan 3D handbeweging en audio bevat van 15 pianisten van eliteniveau die 153 stukken klassieke muziek spelen. Om natuurlijke uitvoeringen vast te leggen, hebben we een markerloze opstelling ontworpen waarin bewegingen worden gereconstrueerd uit multi-view video's met behulp van state-of-the-art pose-estimatiemodellen. De bewegingsgegevens worden verder verfijnd via inverse kinematica met behulp van de MIDI-toetsaanslaggegevens met hoge resolutie die zijn verkregen van sensoren in een gespecialiseerde Yamaha Disklavier-piano. Door gebruik te maken van de verzamelde dataset hebben we een proces ontwikkeld dat fysiek plausibele handbewegingen kan synthetiseren voor muziekstukken buiten de dataset. Onze aanpak maakt gebruik van een combinatie van imitatieleren en reinforcement learning om beleidsregels te verkrijgen voor op de natuurkunde gebaseerde bimanuele controle die de interactie tussen handen en pianotoetsen omvat. Om het probleem van de bemonsteringsefficiëntie met de grote bewegingsdataset op te lossen, gebruiken we een diffusiemodel om natuurlijke referentiebewegingen te genereren, die hoog-niveau traject- en vingerzettinginformatie bieden. Echter, de gegenereerde referentiebeweging alleen biedt niet voldoende nauwkeurigheid voor het modelleren van pianoprestaties. Vervolgens hebben we de gegevens verder aangevuld door muzikale gelijkenis te gebruiken om vergelijkbare bewegingen uit de vastgelegde dataset op te halen om de precisie van het RL-beleid te verhogen. Met de voorgestelde methode genereert ons model natuurlijke, behendige bewegingen die generaliseren naar muziek van buiten de trainingsdataset.
English
Piano playing requires agile, precise, and coordinated hand control that
stretches the limits of dexterity. Hand motion models with the sophistication
to accurately recreate piano playing have a wide range of applications in
character animation, embodied AI, biomechanics, and VR/AR. In this paper, we
construct a first-of-its-kind large-scale dataset that contains approximately
10 hours of 3D hand motion and audio from 15 elite-level pianists playing 153
pieces of classical music. To capture natural performances, we designed a
markerless setup in which motions are reconstructed from multi-view videos
using state-of-the-art pose estimation models. The motion data is further
refined via inverse kinematics using the high-resolution MIDI key-pressing data
obtained from sensors in a specialized Yamaha Disklavier piano. Leveraging the
collected dataset, we developed a pipeline that can synthesize
physically-plausible hand motions for musical scores outside of the dataset.
Our approach employs a combination of imitation learning and reinforcement
learning to obtain policies for physics-based bimanual control involving the
interaction between hands and piano keys. To solve the sampling efficiency
problem with the large motion dataset, we use a diffusion model to generate
natural reference motions, which provide high-level trajectory and fingering
(finger order and placement) information. However, the generated reference
motion alone does not provide sufficient accuracy for piano performance
modeling. We then further augmented the data by using musical similarity to
retrieve similar motions from the captured dataset to boost the precision of
the RL policy. With the proposed method, our model generates natural, dexterous
motions that generalize to music from outside the training dataset.Summary
AI-Generated Summary