FürElise: Catturare e Sintetizzare Fisicamente i Movimenti delle Mani durante l'Esecuzione al Piano
FürElise: Capturing and Physically Synthesizing Hand Motions of Piano Performance
October 8, 2024
Autori: Ruocheng Wang, Pei Xu, Haochen Shi, Elizabeth Schumann, C. Karen Liu
cs.AI
Abstract
Suonare il pianoforte richiede un controllo agile, preciso e coordinato delle mani che spinge ai limiti della destrezza. I modelli di movimento delle mani con la sofisticazione necessaria per ricreare accuratamente il suonare del pianoforte hanno un'ampia gamma di applicazioni in animazione dei personaggi, intelligenza artificiale incarnata, biomeccanica e realtà virtuale/aumentata. In questo articolo, costruiamo un dataset su larga scala, unico nel suo genere, che contiene approssimativamente 10 ore di movimenti tridimensionali delle mani e audio provenienti da 15 pianisti di livello élite che suonano 153 brani di musica classica. Per catturare esibizioni naturali, abbiamo progettato un setup senza marker in cui i movimenti sono ricostruiti da video multi-view utilizzando modelli di stima della posa all'avanguardia. I dati di movimento sono ulteriormente perfezionati tramite cinematica inversa utilizzando i dati ad alta risoluzione della pressione dei tasti MIDI ottenuti da sensori in un pianoforte Yamaha Disklavier specializzato. Sfruttando il dataset raccolto, abbiamo sviluppato un processo che può sintetizzare movimenti naturali e plausibili per spartiti musicali al di fuori del dataset. Il nostro approccio impiega una combinazione di apprendimento per imitazione e apprendimento per rinforzo per ottenere politiche per il controllo bimanuale basato sulla fisica che coinvolge l'interazione tra le mani e i tasti del pianoforte. Per risolvere il problema dell'efficienza del campionamento con il grande dataset di movimento, utilizziamo un modello di diffusione per generare movimenti di riferimento naturali, che forniscono informazioni di traiettoria e diteggiatura (ordine e posizionamento delle dita) a livello elevato. Tuttavia, il solo movimento di riferimento generato non fornisce una precisione sufficiente per la modellazione delle esibizioni al pianoforte. Abbiamo quindi ulteriormente ampliato i dati utilizzando la similarità musicale per recuperare movimenti simili dal dataset acquisito al fine di potenziare la precisione della politica di apprendimento per rinforzo. Con il metodo proposto, il nostro modello genera movimenti naturali e destri che si generalizzano alla musica al di fuori del dataset di addestramento.
English
Piano playing requires agile, precise, and coordinated hand control that
stretches the limits of dexterity. Hand motion models with the sophistication
to accurately recreate piano playing have a wide range of applications in
character animation, embodied AI, biomechanics, and VR/AR. In this paper, we
construct a first-of-its-kind large-scale dataset that contains approximately
10 hours of 3D hand motion and audio from 15 elite-level pianists playing 153
pieces of classical music. To capture natural performances, we designed a
markerless setup in which motions are reconstructed from multi-view videos
using state-of-the-art pose estimation models. The motion data is further
refined via inverse kinematics using the high-resolution MIDI key-pressing data
obtained from sensors in a specialized Yamaha Disklavier piano. Leveraging the
collected dataset, we developed a pipeline that can synthesize
physically-plausible hand motions for musical scores outside of the dataset.
Our approach employs a combination of imitation learning and reinforcement
learning to obtain policies for physics-based bimanual control involving the
interaction between hands and piano keys. To solve the sampling efficiency
problem with the large motion dataset, we use a diffusion model to generate
natural reference motions, which provide high-level trajectory and fingering
(finger order and placement) information. However, the generated reference
motion alone does not provide sufficient accuracy for piano performance
modeling. We then further augmented the data by using musical similarity to
retrieve similar motions from the captured dataset to boost the precision of
the RL policy. With the proposed method, our model generates natural, dexterous
motions that generalize to music from outside the training dataset.Summary
AI-Generated Summary