ChatPaper.aiChatPaper

FürElise: Captura y Síntesis Física de los Movimientos Manuales en la Interpretación de Piano

FürElise: Capturing and Physically Synthesizing Hand Motions of Piano Performance

October 8, 2024
Autores: Ruocheng Wang, Pei Xu, Haochen Shi, Elizabeth Schumann, C. Karen Liu
cs.AI

Resumen

La interpretación del piano requiere un control ágil, preciso y coordinado de las manos que desafía los límites de la destreza. Los modelos de movimiento de manos con la sofisticación necesaria para recrear con precisión la interpretación del piano tienen una amplia gama de aplicaciones en animación de personajes, IA incorporada, biomecánica y RV/RA. En este documento, construimos un conjunto de datos a gran escala único en su tipo que contiene aproximadamente 10 horas de movimiento de manos en 3D y audio de 15 pianistas de élite interpretando 153 piezas de música clásica. Para capturar interpretaciones naturales, diseñamos una configuración sin marcadores en la que los movimientos se reconstruyen a partir de videos de múltiples vistas utilizando modelos de estimación de postura de última generación. Los datos de movimiento se refinan aún más a través de cinemática inversa utilizando los datos de presión de teclas MIDI de alta resolución obtenidos de sensores en un piano Yamaha Disklavier especializado. Aprovechando el conjunto de datos recopilado, desarrollamos un proceso que puede sintetizar movimientos de manos físicamente plausibles para partituras musicales fuera del conjunto de datos. Nuestro enfoque emplea una combinación de aprendizaje por imitación y aprendizaje por refuerzo para obtener políticas para el control bimanual basado en la física que implica la interacción entre las manos y las teclas del piano. Para resolver el problema de eficiencia de muestreo con el gran conjunto de datos de movimiento, utilizamos un modelo de difusión para generar movimientos de referencia naturales, que proporcionan información de trayectoria y digitación (orden y colocación de los dedos) de alto nivel. Sin embargo, el movimiento de referencia generado por sí solo no proporciona la precisión suficiente para modelar la interpretación del piano. Luego, ampliamos aún más los datos utilizando la similitud musical para recuperar movimientos similares del conjunto de datos capturado y aumentar la precisión de la política de aprendizaje por refuerzo. Con el método propuesto, nuestro modelo genera movimientos naturales y hábiles que se generalizan a la música fuera del conjunto de datos de entrenamiento.
English
Piano playing requires agile, precise, and coordinated hand control that stretches the limits of dexterity. Hand motion models with the sophistication to accurately recreate piano playing have a wide range of applications in character animation, embodied AI, biomechanics, and VR/AR. In this paper, we construct a first-of-its-kind large-scale dataset that contains approximately 10 hours of 3D hand motion and audio from 15 elite-level pianists playing 153 pieces of classical music. To capture natural performances, we designed a markerless setup in which motions are reconstructed from multi-view videos using state-of-the-art pose estimation models. The motion data is further refined via inverse kinematics using the high-resolution MIDI key-pressing data obtained from sensors in a specialized Yamaha Disklavier piano. Leveraging the collected dataset, we developed a pipeline that can synthesize physically-plausible hand motions for musical scores outside of the dataset. Our approach employs a combination of imitation learning and reinforcement learning to obtain policies for physics-based bimanual control involving the interaction between hands and piano keys. To solve the sampling efficiency problem with the large motion dataset, we use a diffusion model to generate natural reference motions, which provide high-level trajectory and fingering (finger order and placement) information. However, the generated reference motion alone does not provide sufficient accuracy for piano performance modeling. We then further augmented the data by using musical similarity to retrieve similar motions from the captured dataset to boost the precision of the RL policy. With the proposed method, our model generates natural, dexterous motions that generalize to music from outside the training dataset.

Summary

AI-Generated Summary

PDF74November 16, 2024