ChatPaper.aiChatPaper

物理ベースのスパース入力からのモーションリターゲット

Physics-based Motion Retargeting from Sparse Inputs

July 4, 2023
著者: Daniele Reda, Jungdam Won, Yuting Ye, Michiel van de Panne, Alexander Winkler
cs.AI

要旨

アバターは仮想世界におけるインタラクティブで没入感のある体験を創出する上で重要です。これらのキャラクターをユーザーの動きに合わせてアニメーションさせる際の課題の一つは、市販のAR/VR製品がヘッドセットとコントローラーのみで構成されており、ユーザーの姿勢に関するセンサーデータが非常に限られていることです。もう一つの課題は、アバターが人間とは異なる骨格構造を持つ可能性があり、それらの間のマッピングが明確でないことです。本研究では、これらの両方の課題に取り組みます。我々は、まばらな人間のセンサーデータから様々な形態のキャラクターへリアルタイムでモーションをリターゲットする手法を提案します。この手法では、物理シミュレータ内でキャラクターを制御するためのポリシーを強化学習を用いて訓練します。訓練には人間のモーションキャプチャデータのみを必要とし、各アバターごとにアーティストが生成したアニメーションに依存しません。これにより、大規模なモーションキャプチャデータセットを使用して、リアルタイムで実際のまばらなデータから未見のユーザーを追跡できる汎用的なポリシーを訓練することが可能になります。我々は、恐竜、ネズミのような生物、人間という異なる骨格構造を持つ3つのキャラクターに対して、このアプローチの実現可能性を実証します。下半身のセンサー情報が利用できないにもかかわらず、アバターのポーズがユーザーと驚くほどよく一致することを示します。我々は、フレームワーク内の重要なコンポーネント、具体的にはキネマティックリターゲティングステップ、模倣、接触、アクション報酬、および非対称なアクター-クリティック観測について議論し、アブレーションを行います。さらに、バランスを崩す動作、ダンス、スポーツの動きを含む様々な設定において、本手法の堅牢性を探ります。
English
Avatars are important to create interactive and immersive experiences in virtual worlds. One challenge in animating these characters to mimic a user's motion is that commercial AR/VR products consist only of a headset and controllers, providing very limited sensor data of the user's pose. Another challenge is that an avatar might have a different skeleton structure than a human and the mapping between them is unclear. In this work we address both of these challenges. We introduce a method to retarget motions in real-time from sparse human sensor data to characters of various morphologies. Our method uses reinforcement learning to train a policy to control characters in a physics simulator. We only require human motion capture data for training, without relying on artist-generated animations for each avatar. This allows us to use large motion capture datasets to train general policies that can track unseen users from real and sparse data in real-time. We demonstrate the feasibility of our approach on three characters with different skeleton structure: a dinosaur, a mouse-like creature and a human. We show that the avatar poses often match the user surprisingly well, despite having no sensor information of the lower body available. We discuss and ablate the important components in our framework, specifically the kinematic retargeting step, the imitation, contact and action reward as well as our asymmetric actor-critic observations. We further explore the robustness of our method in a variety of settings including unbalancing, dancing and sports motions.
PDF70December 15, 2024