FürElise: Captura e Síntese Física de Movimentos Manuais na Performance de Piano
FürElise: Capturing and Physically Synthesizing Hand Motions of Piano Performance
October 8, 2024
Autores: Ruocheng Wang, Pei Xu, Haochen Shi, Elizabeth Schumann, C. Karen Liu
cs.AI
Resumo
Tocar piano requer controle ágil, preciso e coordenado das mãos que estica os limites da destreza. Modelos de movimento das mãos com a sofisticação necessária para recriar com precisão a execução do piano têm uma ampla gama de aplicações em animação de personagens, IA incorporada, biomecânica e RV/RA. Neste artigo, construímos um conjunto de dados em larga escala pioneiro que contém aproximadamente 10 horas de movimento tridimensional das mãos e áudio de 15 pianistas de elite executando 153 peças de música clássica. Para capturar performances naturais, projetamos uma configuração sem marcadores na qual os movimentos são reconstruídos a partir de vídeos de múltiplas vistas usando modelos de estimativa de pose de última geração. Os dados de movimento são ainda refinados por meio de cinemática inversa utilizando os dados de pressionamento de teclas MIDI de alta resolução obtidos de sensores em um piano Yamaha Disklavier especializado. Aproveitando o conjunto de dados coletado, desenvolvemos um pipeline que pode sintetizar movimentos das mãos fisicamente plausíveis para partituras musicais fora do conjunto de dados. Nossa abordagem emprega uma combinação de aprendizado por imitação e aprendizado por reforço para obter políticas para controle bimanual baseado em física envolvendo a interação entre as mãos e as teclas do piano. Para resolver o problema de eficiência de amostragem com o grande conjunto de dados de movimento, utilizamos um modelo de difusão para gerar movimentos de referência naturais, que fornecem informações de trajetória e posicionamento dos dedos em alto nível. No entanto, o movimento de referência gerado sozinho não fornece precisão suficiente para a modelagem de performance no piano. Em seguida, ampliamos ainda mais os dados usando similaridade musical para recuperar movimentos semelhantes do conjunto de dados capturado a fim de aumentar a precisão da política de aprendizado por reforço. Com o método proposto, nosso modelo gera movimentos naturais e ágeis que se generalizam para músicas fora do conjunto de dados de treinamento.
English
Piano playing requires agile, precise, and coordinated hand control that
stretches the limits of dexterity. Hand motion models with the sophistication
to accurately recreate piano playing have a wide range of applications in
character animation, embodied AI, biomechanics, and VR/AR. In this paper, we
construct a first-of-its-kind large-scale dataset that contains approximately
10 hours of 3D hand motion and audio from 15 elite-level pianists playing 153
pieces of classical music. To capture natural performances, we designed a
markerless setup in which motions are reconstructed from multi-view videos
using state-of-the-art pose estimation models. The motion data is further
refined via inverse kinematics using the high-resolution MIDI key-pressing data
obtained from sensors in a specialized Yamaha Disklavier piano. Leveraging the
collected dataset, we developed a pipeline that can synthesize
physically-plausible hand motions for musical scores outside of the dataset.
Our approach employs a combination of imitation learning and reinforcement
learning to obtain policies for physics-based bimanual control involving the
interaction between hands and piano keys. To solve the sampling efficiency
problem with the large motion dataset, we use a diffusion model to generate
natural reference motions, which provide high-level trajectory and fingering
(finger order and placement) information. However, the generated reference
motion alone does not provide sufficient accuracy for piano performance
modeling. We then further augmented the data by using musical similarity to
retrieve similar motions from the captured dataset to boost the precision of
the RL policy. With the proposed method, our model generates natural, dexterous
motions that generalize to music from outside the training dataset.Summary
AI-Generated Summary