ContextAnyone: Geração de Vídeo a partir de Texto com Difusão Consciente do Contexto para Preservação da Consistência de Personagens

Resumo

A geração de texto para vídeo (T2V) avançou rapidamente, mas a manutenção de identidades de personagens consistentes entre cenas continua a ser um grande desafio. Os métodos de personalização existentes frequentemente focam na identidade facial, mas falham em preservar pistas contextuais mais amplas, como penteado, vestuário e tipo de corpo, que são críticas para a coerência visual. Propomos o ContextAnyone, um framework de difusão consciente do contexto que alcança a geração de vídeo com consistência de personagem a partir de texto e de uma única imagem de referência. O nosso método reconstrói conjuntamente a imagem de referência e gera novos fotogramas de vídeo, permitindo que o modelo perceba e utilize totalmente a informação de referência. A informação de referência é integrada de forma eficaz num backbone de difusão baseado em DiT através de um novo módulo Emphasize-Attention que reforça seletivamente as características conscientes da referência e previne a deriva de identidade entre os fotogramas. Uma perda de dupla-orientação combina objetivos de difusão e de reconstrução de referência para melhorar a fidelidade da aparência, enquanto a incorporação posicional Gap-RoPE proposta separa os tokens de referência e de vídeo para estabilizar a modelação temporal. Experiências demonstram que o ContextAnyone supera os métodos existentes de referência-para-vídeo em consistência de identidade e qualidade visual, gerando vídeos de personagens coerentes e que preservam o contexto através de diversos movimentos e cenas. Página do projeto: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.

English

Text-to-video (T2V) generation has advanced rapidly, yet maintaining consistent character identities across scenes remains a major challenge. Existing personalization methods often focus on facial identity but fail to preserve broader contextual cues such as hairstyle, outfit, and body shape, which are critical for visual coherence. We propose ContextAnyone, a context-aware diffusion framework that achieves character-consistent video generation from text and a single reference image. Our method jointly reconstructs the reference image and generates new video frames, enabling the model to fully perceive and utilize reference information. Reference information is effectively integrated into a DiT-based diffusion backbone through a novel Emphasize-Attention module that selectively reinforces reference-aware features and prevents identity drift across frames. A dual-guidance loss combines diffusion and reference reconstruction objectives to enhance appearance fidelity, while the proposed Gap-RoPE positional embedding separates reference and video tokens to stabilize temporal modeling. Experiments demonstrate that ContextAnyone outperforms existing reference-to-video methods in identity consistency and visual quality, generating coherent and context-preserving character videos across diverse motions and scenes. Project page: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.

ContextAnyone: Geração de Vídeo a partir de Texto com Difusão Consciente do Contexto para Preservação da Consistência de Personagens

ContextAnyone: Context-Aware Diffusion for Character-Consistent Text-to-Video Generation

Resumo

Support