FürElise: Captura y Síntesis Física de los Movimientos Manuales en la Interpretación de Piano
FürElise: Capturing and Physically Synthesizing Hand Motions of Piano Performance
October 8, 2024
Autores: Ruocheng Wang, Pei Xu, Haochen Shi, Elizabeth Schumann, C. Karen Liu
cs.AI
Resumen
La interpretación del piano requiere un control ágil, preciso y coordinado de las manos que desafía los límites de la destreza. Los modelos de movimiento de manos con la sofisticación necesaria para recrear con precisión la interpretación del piano tienen una amplia gama de aplicaciones en animación de personajes, IA incorporada, biomecánica y RV/RA. En este documento, construimos un conjunto de datos a gran escala único en su tipo que contiene aproximadamente 10 horas de movimiento de manos en 3D y audio de 15 pianistas de élite interpretando 153 piezas de música clásica. Para capturar interpretaciones naturales, diseñamos una configuración sin marcadores en la que los movimientos se reconstruyen a partir de videos de múltiples vistas utilizando modelos de estimación de postura de última generación. Los datos de movimiento se refinan aún más a través de cinemática inversa utilizando los datos de presión de teclas MIDI de alta resolución obtenidos de sensores en un piano Yamaha Disklavier especializado. Aprovechando el conjunto de datos recopilado, desarrollamos un proceso que puede sintetizar movimientos de manos físicamente plausibles para partituras musicales fuera del conjunto de datos. Nuestro enfoque emplea una combinación de aprendizaje por imitación y aprendizaje por refuerzo para obtener políticas para el control bimanual basado en la física que implica la interacción entre las manos y las teclas del piano. Para resolver el problema de eficiencia de muestreo con el gran conjunto de datos de movimiento, utilizamos un modelo de difusión para generar movimientos de referencia naturales, que proporcionan información de trayectoria y digitación (orden y colocación de los dedos) de alto nivel. Sin embargo, el movimiento de referencia generado por sí solo no proporciona la precisión suficiente para modelar la interpretación del piano. Luego, ampliamos aún más los datos utilizando la similitud musical para recuperar movimientos similares del conjunto de datos capturado y aumentar la precisión de la política de aprendizaje por refuerzo. Con el método propuesto, nuestro modelo genera movimientos naturales y hábiles que se generalizan a la música fuera del conjunto de datos de entrenamiento.
English
Piano playing requires agile, precise, and coordinated hand control that
stretches the limits of dexterity. Hand motion models with the sophistication
to accurately recreate piano playing have a wide range of applications in
character animation, embodied AI, biomechanics, and VR/AR. In this paper, we
construct a first-of-its-kind large-scale dataset that contains approximately
10 hours of 3D hand motion and audio from 15 elite-level pianists playing 153
pieces of classical music. To capture natural performances, we designed a
markerless setup in which motions are reconstructed from multi-view videos
using state-of-the-art pose estimation models. The motion data is further
refined via inverse kinematics using the high-resolution MIDI key-pressing data
obtained from sensors in a specialized Yamaha Disklavier piano. Leveraging the
collected dataset, we developed a pipeline that can synthesize
physically-plausible hand motions for musical scores outside of the dataset.
Our approach employs a combination of imitation learning and reinforcement
learning to obtain policies for physics-based bimanual control involving the
interaction between hands and piano keys. To solve the sampling efficiency
problem with the large motion dataset, we use a diffusion model to generate
natural reference motions, which provide high-level trajectory and fingering
(finger order and placement) information. However, the generated reference
motion alone does not provide sufficient accuracy for piano performance
modeling. We then further augmented the data by using musical similarity to
retrieve similar motions from the captured dataset to boost the precision of
the RL policy. With the proposed method, our model generates natural, dexterous
motions that generalize to music from outside the training dataset.Summary
AI-Generated Summary