Für Elise: ピアノ演奏の手の動きを捉えて物理的に合成する
FürElise: Capturing and Physically Synthesizing Hand Motions of Piano Performance
October 8, 2024
著者: Ruocheng Wang, Pei Xu, Haochen Shi, Elizabeth Schumann, C. Karen Liu
cs.AI
要旨
ピアノ演奏には、器用で正確かつ協調した手の制御が必要であり、その器用さの限界に挑戦します。ピアノ演奏を正確に再現する洗練された手の動きモデルは、キャラクターアニメーション、具現化AI、生体力学、VR/ARなど、さまざまな応用があります。本論文では、約10時間の3D手の動きと15人のエリートピアニストによる153曲のクラシック音楽演奏からなる初の大規模データセットを構築します。自然な演奏を捉えるため、最先端のポーズ推定モデルを使用してマルチビュー動画から再構築されるマーカーレスセットアップを設計しました。動きデータは、専用のYamaha Disklavierピアノのセンサーから得られた高解像度のMIDIキープレスデータを使用して逆運動学を介してさらに洗練されます。収集したデータセットを活用して、データセット外の楽譜に対して物理的に妥当な手の動きを合成できるパイプラインを開発しました。当社の手法は、模倣学習と強化学習の組み合わせを用いて、手とピアノキーの相互作用を含む物理ベースの両手制御のポリシーを取得します。大規模な動きデータセットにおけるサンプリング効率の問題を解決するために、拡散モデルを使用して自然なリファレンスモーションを生成し、高レベルの軌道とフィンガリング(指の順序と配置)情報を提供します。ただし、生成されたリファレンスモーションだけでは、ピアノ演奏モデリングに十分な精度を提供しません。その後、RLポリシーの精度を向上させるために、捕捉されたデータセットから類似の動きを取得するために音楽の類似性を使用してデータをさらに拡張しました。提案された手法により、当社のモデルは、トレーニングデータセット外の音楽にも適用可能な自然で器用な動きを生成します。
English
Piano playing requires agile, precise, and coordinated hand control that
stretches the limits of dexterity. Hand motion models with the sophistication
to accurately recreate piano playing have a wide range of applications in
character animation, embodied AI, biomechanics, and VR/AR. In this paper, we
construct a first-of-its-kind large-scale dataset that contains approximately
10 hours of 3D hand motion and audio from 15 elite-level pianists playing 153
pieces of classical music. To capture natural performances, we designed a
markerless setup in which motions are reconstructed from multi-view videos
using state-of-the-art pose estimation models. The motion data is further
refined via inverse kinematics using the high-resolution MIDI key-pressing data
obtained from sensors in a specialized Yamaha Disklavier piano. Leveraging the
collected dataset, we developed a pipeline that can synthesize
physically-plausible hand motions for musical scores outside of the dataset.
Our approach employs a combination of imitation learning and reinforcement
learning to obtain policies for physics-based bimanual control involving the
interaction between hands and piano keys. To solve the sampling efficiency
problem with the large motion dataset, we use a diffusion model to generate
natural reference motions, which provide high-level trajectory and fingering
(finger order and placement) information. However, the generated reference
motion alone does not provide sufficient accuracy for piano performance
modeling. We then further augmented the data by using musical similarity to
retrieve similar motions from the captured dataset to boost the precision of
the RL policy. With the proposed method, our model generates natural, dexterous
motions that generalize to music from outside the training dataset.Summary
AI-Generated Summary