ChatPaper.aiChatPaper

FürElise: Захват и физический синтез движений рук во время исполнения на пианино

FürElise: Capturing and Physically Synthesizing Hand Motions of Piano Performance

October 8, 2024
Авторы: Ruocheng Wang, Pei Xu, Haochen Shi, Elizabeth Schumann, C. Karen Liu
cs.AI

Аннотация

Игра на пианино требует ловкого, точного и согласованного управления руками, выходящего за пределы ловкости. Модели движения рук с достаточной сложностью для точного воссоздания игры на пианино имеют широкий спектр применений в анимации персонажей, инкорпорированном искусственном интеллекте, биомеханике и виртуальной/дополненной реальности. В данной статье мы создаем уникальный крупномасштабный набор данных, содержащий около 10 часов трехмерного движения рук и аудио от 15 пианистов высокого уровня, исполняющих 153 произведения классической музыки. Для захвата естественных выступлений мы разработали маркерную систему, в которой движения восстанавливаются из многокамерных видео с использованием передовых моделей оценки поз. Данные о движении дополнительно уточняются с помощью обратной кинематики с использованием данных о нажатии клавиш MIDI высокого разрешения, полученных от датчиков в специализированном пианино Yamaha Disklavier. Используя собранный набор данных, мы разработали конвейер, способный синтезировать физически правдоподобные движения рук для музыкальных нот за пределами набора данных. Наш подход использует комбинацию обучения имитации и обучения с подкреплением для получения стратегий для физически основанного бимануального управления, включающего взаимодействие между руками и клавишами пианино. Для решения проблемы эффективности выборки с большим набором данных о движении мы используем модель диффузии для генерации естественных опорных движений, которые предоставляют информацию о высокоуровневой траектории и фингеринге (порядок и расположение пальцев). Однако только сгенерированное опорное движение не обеспечивает достаточной точности для моделирования игры на пианино. Затем мы дополнили данные, используя музыкальную схожесть для извлечения аналогичных движений из захваченного набора данных для увеличения точности стратегии обучения с подкреплением. С предложенным методом наша модель генерирует естественные, ловкие движения, которые обобщаются на музыку за пределами обучающего набора данных.
English
Piano playing requires agile, precise, and coordinated hand control that stretches the limits of dexterity. Hand motion models with the sophistication to accurately recreate piano playing have a wide range of applications in character animation, embodied AI, biomechanics, and VR/AR. In this paper, we construct a first-of-its-kind large-scale dataset that contains approximately 10 hours of 3D hand motion and audio from 15 elite-level pianists playing 153 pieces of classical music. To capture natural performances, we designed a markerless setup in which motions are reconstructed from multi-view videos using state-of-the-art pose estimation models. The motion data is further refined via inverse kinematics using the high-resolution MIDI key-pressing data obtained from sensors in a specialized Yamaha Disklavier piano. Leveraging the collected dataset, we developed a pipeline that can synthesize physically-plausible hand motions for musical scores outside of the dataset. Our approach employs a combination of imitation learning and reinforcement learning to obtain policies for physics-based bimanual control involving the interaction between hands and piano keys. To solve the sampling efficiency problem with the large motion dataset, we use a diffusion model to generate natural reference motions, which provide high-level trajectory and fingering (finger order and placement) information. However, the generated reference motion alone does not provide sufficient accuracy for piano performance modeling. We then further augmented the data by using musical similarity to retrieve similar motions from the captured dataset to boost the precision of the RL policy. With the proposed method, our model generates natural, dexterous motions that generalize to music from outside the training dataset.

Summary

AI-Generated Summary

PDF74November 16, 2024