構造的ガイダンスを必要としないエンドツーエンドの映像キャラクター置換技術
End-to-End Video Character Replacement without Structural Guidance
January 13, 2026
著者: Zhengbo Xu, Jie Ma, Ziheng Wang, Zhan Peng, Jun Liang, Jing Li
cs.AI
要旨
ユーザーが提供した人物IDに基づく制御可能なビデオキャラクター置換は、ペアとなるビデオデータの不足により、依然として困難な課題である。従来の研究は主に、フレーム単位のセグメンテーションマスクと明示的な構造ガイダンス(骨格、深度など)を必要とする再構築ベースのパラダイムに依存してきた。しかし、この依存性は、オクルージョン、キャラクターと物体の相互作用、特殊なポーズ、困難な照明条件を含む複雑なシナリオにおける一般性を大幅に制限し、視覚的なアーティファクトや時間的な不一致を引き起こしがちである。本論文では、これらの制限を回避する革新的なフレームワークであるMoChaを提案する。MoChaは任意の単一フレームマスクのみを必要とする。マルチモーダル入力条件を効果的に適応させ、顔の同一性を強化するために、条件感知RoPEを導入し、強化学習ベースのポストトレーニング段階を採用する。さらに、質の高いペアトレーニングデータの不足を克服するため、包括的なデータ構築パイプラインを提案する。具体的には、Unreal Engine 5 (UE5) で構築された高精細レンダリングデータセット、現在の肖像アニメーション技術で合成された表情駆動データセット、既存のビデオ-マスクペアから派生した拡張データセットという3つの専門データセットを設計する。大規模な実験により、本手法が既存の最先端手法を大幅に上回ることを実証する。今後の研究の発展のためにコードを公開する予定である。詳細についてはプロジェクトページ(orange-3dv-team.github.io/MoCha)を参照されたい。
English
Controllable video character replacement with a user-provided identity remains a challenging problem due to the lack of paired video data. Prior works have predominantly relied on a reconstruction-based paradigm that requires per-frame segmentation masks and explicit structural guidance (e.g., skeleton, depth). This reliance, however, severely limits their generalizability in complex scenarios involving occlusions, character-object interactions, unusual poses, or challenging illumination, often leading to visual artifacts and temporal inconsistencies. In this paper, we propose MoCha, a pioneering framework that bypasses these limitations by requiring only a single arbitrary frame mask. To effectively adapt the multi-modal input condition and enhance facial identity, we introduce a condition-aware RoPE and employ an RL-based post-training stage. Furthermore, to overcome the scarcity of qualified paired-training data, we propose a comprehensive data construction pipeline. Specifically, we design three specialized datasets: a high-fidelity rendered dataset built with Unreal Engine 5 (UE5), an expression-driven dataset synthesized by current portrait animation techniques, and an augmented dataset derived from existing video-mask pairs. Extensive experiments demonstrate that our method substantially outperforms existing state-of-the-art approaches. We will release the code to facilitate further research. Please refer to our project page for more details: orange-3dv-team.github.io/MoCha