ChatPaper.aiChatPaper

FürElise: 피아노 연주의 손 움직임을 캡처하고 물리적으로 합성하기

FürElise: Capturing and Physically Synthesizing Hand Motions of Piano Performance

October 8, 2024
저자: Ruocheng Wang, Pei Xu, Haochen Shi, Elizabeth Schumann, C. Karen Liu
cs.AI

초록

피아노 연주는 미세한 손 제어의 한계를 느낄 수 있는 민첩하고 정확하며 조율된 손 움직임이 필요합니다. 피아노 연주를 정확히 재현할 수 있는 정교한 손 움직임 모델은 캐릭터 애니메이션, 신체를 갖춘 AI, 생체역학, 그리고 가상 현실/증강 현실 분야에 다양하게 응용될 수 있습니다. 본 논문에서는 15명의 정상급 피아니스트가 연주한 153곡의 고전 음악에서 약 10시간의 3D 손 움직임과 오디오를 포함하는 최초의 대규모 데이터셋을 구축했습니다. 자연스러운 연주를 캡처하기 위해 최신 자세 추정 모델을 사용하여 다중 뷰 비디오에서 움직임을 재구성하는 무마커 설정을 설계했습니다. 움직임 데이터는 전문 Yamaha Disklavier 피아노의 센서에서 얻은 고해상도 MIDI 키 누름 데이터를 사용하여 역운동학을 통해 더욱 정교하게 가공되었습니다. 수집한 데이터셋을 활용하여 데이터셋 외의 음악에 대해 물리적으로 타당한 손 움직임을 합성할 수 있는 파이프라인을 개발했습니다. 우리의 방법론은 모방 학습과 강화 학습을 결합하여 손과 피아노 건반 사이 상호작용을 포함하는 물리 기반 양손 제어를 위한 정책을 얻는 데 사용되었습니다. 대규모 움직임 데이터셋의 샘플링 효율성 문제를 해결하기 위해 확산 모델을 사용하여 자연스러운 참조 움직임을 생성했습니다. 이는 고수준의 궤적 및 손가락 배치 정보를 제공합니다. 그러나 생성된 참조 움직임만으로는 피아노 연주 모델링에 충분한 정확도를 제공하지 않습니다. 따라서 우리는 RL 정책의 정밀도를 향상시키기 위해 캡처된 데이터셋에서 유사한 움직임을 검색하기 위해 음악적 유사성을 활용하여 데이터를 추가로 보강했습니다. 제안된 방법을 통해 우리의 모델은 훈련 데이터셋 외의 음악에 대해 일반화할 수 있는 자연스럽고 민첩한 움직임을 생성합니다.
English
Piano playing requires agile, precise, and coordinated hand control that stretches the limits of dexterity. Hand motion models with the sophistication to accurately recreate piano playing have a wide range of applications in character animation, embodied AI, biomechanics, and VR/AR. In this paper, we construct a first-of-its-kind large-scale dataset that contains approximately 10 hours of 3D hand motion and audio from 15 elite-level pianists playing 153 pieces of classical music. To capture natural performances, we designed a markerless setup in which motions are reconstructed from multi-view videos using state-of-the-art pose estimation models. The motion data is further refined via inverse kinematics using the high-resolution MIDI key-pressing data obtained from sensors in a specialized Yamaha Disklavier piano. Leveraging the collected dataset, we developed a pipeline that can synthesize physically-plausible hand motions for musical scores outside of the dataset. Our approach employs a combination of imitation learning and reinforcement learning to obtain policies for physics-based bimanual control involving the interaction between hands and piano keys. To solve the sampling efficiency problem with the large motion dataset, we use a diffusion model to generate natural reference motions, which provide high-level trajectory and fingering (finger order and placement) information. However, the generated reference motion alone does not provide sufficient accuracy for piano performance modeling. We then further augmented the data by using musical similarity to retrieve similar motions from the captured dataset to boost the precision of the RL policy. With the proposed method, our model generates natural, dexterous motions that generalize to music from outside the training dataset.

Summary

AI-Generated Summary

PDF74November 16, 2024