ChatPaper.aiChatPaper

ContextAnyone: キャラクターの一貫性を保つテキスト動画生成のためのコンテキスト認識拡散モデル

ContextAnyone: Context-Aware Diffusion for Character-Consistent Text-to-Video Generation

December 8, 2025
著者: Ziyang Mai, Yu-Wing Tai
cs.AI

要旨

テキストからビデオ(T2V)生成は急速に進歩しているが、シーンを超えて一貫したキャラクターの同一性を維持することは依然として大きな課題である。既存の個人化手法はしばしば顔の同一性に焦点を当てるが、視覚的一貫性にとって重要な髪型、服装、体型といったより広範な文脈的手がかりを保持できない。我々は、テキストと単一の参照画像からキャラクターに一貫性のあるビデオ生成を実現する、文脈認識拡散フレームワーク「ContextAnyone」を提案する。本手法は参照画像の再構成と新規ビデオフレームの生成を共同で行い、モデルが参照情報を完全に知覚して利用できるようにする。参照情報は、参照を意識した特徴量を選択的に強化し、フレーム間の同一性のドリフトを防ぐ新規のEmphasize-Attentionモジュールを通じて、DiTベースの拡散バックボーンに効果的に統合される。デュアルガイダンス損失は、拡散と参照再構成の目的を組み合わせて外観の忠実性を高め、提案するGap-RoPE位置埋め込みは参照トークンとビデオトークンを分離して時間モデリングを安定させる。実験により、ContextAnyoneが既存の参照動画生成手法を、同一性の一貫性と視覚的品質の両方で上回り、多様な動きやシーンにわたって一貫性があり文脈を保持するキャラクタービデオを生成することを示す。プロジェクトページ: https://github.com/ziyang1106/ContextAnyone
English
Text-to-video (T2V) generation has advanced rapidly, yet maintaining consistent character identities across scenes remains a major challenge. Existing personalization methods often focus on facial identity but fail to preserve broader contextual cues such as hairstyle, outfit, and body shape, which are critical for visual coherence. We propose ContextAnyone, a context-aware diffusion framework that achieves character-consistent video generation from text and a single reference image. Our method jointly reconstructs the reference image and generates new video frames, enabling the model to fully perceive and utilize reference information. Reference information is effectively integrated into a DiT-based diffusion backbone through a novel Emphasize-Attention module that selectively reinforces reference-aware features and prevents identity drift across frames. A dual-guidance loss combines diffusion and reference reconstruction objectives to enhance appearance fidelity, while the proposed Gap-RoPE positional embedding separates reference and video tokens to stabilize temporal modeling. Experiments demonstrate that ContextAnyone outperforms existing reference-to-video methods in identity consistency and visual quality, generating coherent and context-preserving character videos across diverse motions and scenes. Project page: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.
PDF02December 18, 2025