ChatPaper.aiChatPaper

ContexteQuiconque : Diffusion Sensible au Contexte pour la Génération Texte-Vidéo Cohérente des Personnages

ContextAnyone: Context-Aware Diffusion for Character-Consistent Text-to-Video Generation

December 8, 2025
papers.authors: Ziyang Mai, Yu-Wing Tai
cs.AI

papers.abstract

La génération texte-vidéo (T2V) a progressé rapidement, mais maintenir une identité cohérente des personnages d'une scène à l'autre reste un défi majeur. Les méthodes de personnalisation existantes se concentrent souvent sur l'identité faciale mais ne parviennent pas à préserver les indices contextuels plus larges tels que la coiffure, la tenue vestimentaire et la morphologie, qui sont pourtant essentiels à la cohérence visuelle. Nous proposons ContextAnyone, un framework de diffusion sensible au contexte qui permet une génération vidéo avec des personnages cohérents à partir d'un texte et d'une seule image de référence. Notre méthode reconstruit conjointement l'image de référence et génère de nouvelles images vidéo, permettant au modèle de percevoir et d'utiliser pleinement les informations de référence. Ces informations sont efficacement intégrées dans un modèle de diffusion de type DiT grâce à un nouveau module Emphasize-Attention qui renforce sélectivement les caractéristiques sensibles à la référence et empêche la dérive d'identité entre les images. Une fonction de perte à double guidage combine les objectifs de diffusion et de reconstruction de référence pour améliorer la fidélité de l'apparence, tandis que l'encodage positionnel Gap-RoPE proposé sépare les tokens de référence et les tokens vidéo pour stabiliser la modélisation temporelle. Les expériences démontrent que ContextAnyone surpasse les méthodes existantes de génération vidéo à partir d'une référence en termes de cohérence d'identité et de qualité visuelle, générant des vidéos de personnages cohérentes et préservant le contexte à travers des mouvements et des scènes variés. Page du projet : https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.
English
Text-to-video (T2V) generation has advanced rapidly, yet maintaining consistent character identities across scenes remains a major challenge. Existing personalization methods often focus on facial identity but fail to preserve broader contextual cues such as hairstyle, outfit, and body shape, which are critical for visual coherence. We propose ContextAnyone, a context-aware diffusion framework that achieves character-consistent video generation from text and a single reference image. Our method jointly reconstructs the reference image and generates new video frames, enabling the model to fully perceive and utilize reference information. Reference information is effectively integrated into a DiT-based diffusion backbone through a novel Emphasize-Attention module that selectively reinforces reference-aware features and prevents identity drift across frames. A dual-guidance loss combines diffusion and reference reconstruction objectives to enhance appearance fidelity, while the proposed Gap-RoPE positional embedding separates reference and video tokens to stabilize temporal modeling. Experiments demonstrate that ContextAnyone outperforms existing reference-to-video methods in identity consistency and visual quality, generating coherent and context-preserving character videos across diverse motions and scenes. Project page: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.
PDF02December 18, 2025