テキスト指示からの自律キャラクター・シーンインタラクション合成
Autonomous Character-Scene Interaction Synthesis from Text Instruction
October 4, 2024
著者: Nan Jiang, Zimo He, Zi Wang, Hongjie Li, Yixin Chen, Siyuan Huang, Yixin Zhu
cs.AI
要旨
3D環境における人間の動作の合成は、特に歩行、手の届く動作、人間と物体の相互作用などの複雑な活動を含む場合、ユーザー定義のウェイポイントとステージの遷移に大きな要求を提起します。これらの要件は、現在のモデルにとって課題をもたらし、単純な人間の入力からキャラクターのアニメーションを自動化する際に著しいギャップが生じています。本論文では、単一のテキスト指示と目標位置から直接複数段階のシーン認識インタラクション動作を合成する包括的なフレームワークを導入することで、この課題に取り組みます。我々の手法は、自己回帰拡散モデルを用いて次の動作セグメントを合成し、各アクションステージの遷移を予測する自律スケジューラを採用しています。合成された動作が環境内でシームレスに統合されるようにするために、開始地点と目標地点の両方でローカルな知覚を考慮したシーン表現を提案しています。さらに、生成された動作の一貫性を向上させるために、フレーム埋め込みを言語入力と統合しています。また、モデルのトレーニングをサポートするために、120の屋内シーンで16時間の動作シーケンスをカバーし、40種類の動作がそれぞれ正確な言語記述で注釈付けされた包括的なモーションキャプチャデータセットを提示しています。実験結果は、環境とテキスト条件に密接に沿った高品質で多段階の動作を生成する我々の手法の効果を示しています。
English
Synthesizing human motions in 3D environments, particularly those with
complex activities such as locomotion, hand-reaching, and human-object
interaction, presents substantial demands for user-defined waypoints and stage
transitions. These requirements pose challenges for current models, leading to
a notable gap in automating the animation of characters from simple human
inputs. This paper addresses this challenge by introducing a comprehensive
framework for synthesizing multi-stage scene-aware interaction motions directly
from a single text instruction and goal location. Our approach employs an
auto-regressive diffusion model to synthesize the next motion segment, along
with an autonomous scheduler predicting the transition for each action stage.
To ensure that the synthesized motions are seamlessly integrated within the
environment, we propose a scene representation that considers the local
perception both at the start and the goal location. We further enhance the
coherence of the generated motion by integrating frame embeddings with language
input. Additionally, to support model training, we present a comprehensive
motion-captured dataset comprising 16 hours of motion sequences in 120 indoor
scenes covering 40 types of motions, each annotated with precise language
descriptions. Experimental results demonstrate the efficacy of our method in
generating high-quality, multi-stage motions closely aligned with environmental
and textual conditions.Summary
AI-Generated Summary