SCAIL: 3D一貫性のあるポーズ表現のインコンテキスト学習によるスタジオ品質キャラクターアニメーションの実現へ
SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations
December 5, 2025
著者: Wenhao Yan, Sheng Ye, Zhuoyi Yang, Jiayan Teng, ZhenHui Dong, Kairui Wen, Xiaotao Gu, Yong-Jin Liu, Jie Tang
cs.AI
要旨
近年の進展にもかかわらず、スタジオ品質のプロダクション基準を満たすキャラクターアニメーションの実現は依然として課題である。既存の手法は駆動ビデオから参照画像へモーションを転送できるが、複雑な動きや異なるアイデンティティ間のアニメーションを含む実写環境では、構造的な忠実性と時間的一貫性の維持にしばしば失敗する。本研究では、これらの課題に対処するSCAIL(Studio-grade Character Animation via In-context Learning)フレームワークを提案する。本手法は二つの革新的技術に基づく。第一に、より頑健で柔軟なモーション信号を提供する新規3Dポーズ表現を考案した。第二に、拡散Transformerアーキテクチャ内にフルコンテキストポーズ注入メカニズムを導入し、完全なモーションシーケンスにわたる効果的な時空間推論を可能にした。スタジオレベル要件に適合させるため、多様性と品質を両立させた精選データパイプラインを構築し、体系的な評価のための包括的ベンチマークを確立した。実験により、SCAILが最先端の性能を達成し、キャラクターアニメーションをスタジオ品質の信頼性とリアリズムへ進展させることを実証した。
English
Achieving character animation that meets studio-grade production standards remains challenging despite recent progress. Existing approaches can transfer motion from a driving video to a reference image, but often fail to preserve structural fidelity and temporal consistency in wild scenarios involving complex motion and cross-identity animations. In this work, we present SCAIL (Studio-grade Character Animation via In-context Learning), a framework designed to address these challenges from two key innovations. First, we propose a novel 3D pose representation, providing a more robust and flexible motion signal. Second, we introduce a full-context pose injection mechanism within a diffusion-transformer architecture, enabling effective spatio-temporal reasoning over full motion sequences. To align with studio-level requirements, we develop a curated data pipeline ensuring both diversity and quality, and establish a comprehensive benchmark for systematic evaluation. Experiments show that SCAIL achieves state-of-the-art performance and advances character animation toward studio-grade reliability and realism.