ChatPaper.aiChatPaper

ContextAnyone: Diffusione Context-Aware per la Generazione Video da Testo con Coerenza dei Personaggi

ContextAnyone: Context-Aware Diffusion for Character-Consistent Text-to-Video Generation

December 8, 2025
Autori: Ziyang Mai, Yu-Wing Tai
cs.AI

Abstract

La generazione video da testo (Text-to-video, T2V) ha compiuto rapidi progressi, ma mantenere identità dei personaggi consistenti tra le diverse scene rimane una sfida importante. I metodi di personalizzazione esistenti si concentrano spesso sull'identità facciale ma non riescono a preservare gli indizi contestuali più ampi come l'acconciatura, l'abbigliamento e la corporatura, che sono critici per la coerenza visiva. Proponiamo ContextAnyone, un framework di diffusione context-aware che genera video con personaggi consistenti a partire da un testo e una singola immagine di riferimento. Il nostro metodo ricostruisce congiuntamente l'immagine di riferimento e genera nuovi fotogrammi video, consentendo al modello di percepire e utilizzare appieno le informazioni di riferimento. Le informazioni di riferimento vengono integrate efficacemente in un backbone di diffusione basato su DiT attraverso un nuovo modulo Emphasize-Attention che rinforza selettivamente le feature consapevoli del riferimento e previene la deriva dell'identità tra i fotogrammi. Una funzione di loss a doppia guida combina gli obiettivi di diffusione e di ricostruzione del riferimento per migliorare la fedeltà dell'aspetto, mentre il proposto posizionale Gap-RoPE separa i token di riferimento e video per stabilizzare la modellazione temporale. Gli esperimenti dimostrano che ContextAnyone supera i metodi reference-to-video esistenti in termini di consistenza dell'identità e qualità visiva, generando video di personaggi coerenti e che preservano il contesto attraverso movimenti e scene diversificate. Pagina del progetto: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.
English
Text-to-video (T2V) generation has advanced rapidly, yet maintaining consistent character identities across scenes remains a major challenge. Existing personalization methods often focus on facial identity but fail to preserve broader contextual cues such as hairstyle, outfit, and body shape, which are critical for visual coherence. We propose ContextAnyone, a context-aware diffusion framework that achieves character-consistent video generation from text and a single reference image. Our method jointly reconstructs the reference image and generates new video frames, enabling the model to fully perceive and utilize reference information. Reference information is effectively integrated into a DiT-based diffusion backbone through a novel Emphasize-Attention module that selectively reinforces reference-aware features and prevents identity drift across frames. A dual-guidance loss combines diffusion and reference reconstruction objectives to enhance appearance fidelity, while the proposed Gap-RoPE positional embedding separates reference and video tokens to stabilize temporal modeling. Experiments demonstrate that ContextAnyone outperforms existing reference-to-video methods in identity consistency and visual quality, generating coherent and context-preserving character videos across diverse motions and scenes. Project page: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.
PDF02December 18, 2025