ChatPaper.aiChatPaper

FürElise: Captura e Síntese Física de Movimentos Manuais na Performance de Piano

FürElise: Capturing and Physically Synthesizing Hand Motions of Piano Performance

October 8, 2024
Autores: Ruocheng Wang, Pei Xu, Haochen Shi, Elizabeth Schumann, C. Karen Liu
cs.AI

Resumo

Tocar piano requer controle ágil, preciso e coordenado das mãos que estica os limites da destreza. Modelos de movimento das mãos com a sofisticação necessária para recriar com precisão a execução do piano têm uma ampla gama de aplicações em animação de personagens, IA incorporada, biomecânica e RV/RA. Neste artigo, construímos um conjunto de dados em larga escala pioneiro que contém aproximadamente 10 horas de movimento tridimensional das mãos e áudio de 15 pianistas de elite executando 153 peças de música clássica. Para capturar performances naturais, projetamos uma configuração sem marcadores na qual os movimentos são reconstruídos a partir de vídeos de múltiplas vistas usando modelos de estimativa de pose de última geração. Os dados de movimento são ainda refinados por meio de cinemática inversa utilizando os dados de pressionamento de teclas MIDI de alta resolução obtidos de sensores em um piano Yamaha Disklavier especializado. Aproveitando o conjunto de dados coletado, desenvolvemos um pipeline que pode sintetizar movimentos das mãos fisicamente plausíveis para partituras musicais fora do conjunto de dados. Nossa abordagem emprega uma combinação de aprendizado por imitação e aprendizado por reforço para obter políticas para controle bimanual baseado em física envolvendo a interação entre as mãos e as teclas do piano. Para resolver o problema de eficiência de amostragem com o grande conjunto de dados de movimento, utilizamos um modelo de difusão para gerar movimentos de referência naturais, que fornecem informações de trajetória e posicionamento dos dedos em alto nível. No entanto, o movimento de referência gerado sozinho não fornece precisão suficiente para a modelagem de performance no piano. Em seguida, ampliamos ainda mais os dados usando similaridade musical para recuperar movimentos semelhantes do conjunto de dados capturado a fim de aumentar a precisão da política de aprendizado por reforço. Com o método proposto, nosso modelo gera movimentos naturais e ágeis que se generalizam para músicas fora do conjunto de dados de treinamento.
English
Piano playing requires agile, precise, and coordinated hand control that stretches the limits of dexterity. Hand motion models with the sophistication to accurately recreate piano playing have a wide range of applications in character animation, embodied AI, biomechanics, and VR/AR. In this paper, we construct a first-of-its-kind large-scale dataset that contains approximately 10 hours of 3D hand motion and audio from 15 elite-level pianists playing 153 pieces of classical music. To capture natural performances, we designed a markerless setup in which motions are reconstructed from multi-view videos using state-of-the-art pose estimation models. The motion data is further refined via inverse kinematics using the high-resolution MIDI key-pressing data obtained from sensors in a specialized Yamaha Disklavier piano. Leveraging the collected dataset, we developed a pipeline that can synthesize physically-plausible hand motions for musical scores outside of the dataset. Our approach employs a combination of imitation learning and reinforcement learning to obtain policies for physics-based bimanual control involving the interaction between hands and piano keys. To solve the sampling efficiency problem with the large motion dataset, we use a diffusion model to generate natural reference motions, which provide high-level trajectory and fingering (finger order and placement) information. However, the generated reference motion alone does not provide sufficient accuracy for piano performance modeling. We then further augmented the data by using musical similarity to retrieve similar motions from the captured dataset to boost the precision of the RL policy. With the proposed method, our model generates natural, dexterous motions that generalize to music from outside the training dataset.

Summary

AI-Generated Summary

PDF74November 16, 2024