ChatPaper.aiChatPaper

ContextAnyone: Difusión Consciente del Contexto para la Generación de Vídeo a partir de Texto con Consistencia de Personajes

ContextAnyone: Context-Aware Diffusion for Character-Consistent Text-to-Video Generation

December 8, 2025
Autores: Ziyang Mai, Yu-Wing Tai
cs.AI

Resumen

La generación de texto a vídeo (T2V) ha avanzado rápidamente, pero mantener identidades de personajes consistentes entre escenas sigue siendo un desafío importante. Los métodos de personalización existentes a menudo se centran en la identidad facial, pero no logran preservar pistas contextuales más amplias, como el peinado, la vestimenta y la complexión corporal, que son críticas para la coherencia visual. Proponemos ContextAnyone, un marco de difusión consciente del contexto que logra la generación de vídeos con personajes consistentes a partir de texto y una única imagen de referencia. Nuestro método reconstruye conjuntamente la imagen de referencia y genera nuevos fotogramas de vídeo, permitiendo que el modelo perciba y utilice plenamente la información de referencia. La información de referencia se integra eficazmente en un modelo de difusión basado en DiT mediante un novedoso módulo de Énfasis-Atención que refuerza selectivamente las características sensibles a la referencia y previene la deriva de identidad entre fotogramas. Una pérdida de doble guía combina los objetivos de difusión y reconstrucción de referencia para mejorar la fidelidad de apariencia, mientras que la nueva codificación posicional Gap-RoPE separa los tokens de referencia y vídeo para estabilizar el modelado temporal. Los experimentos demuestran que ContextAnyone supera a los métodos existentes de referencia a vídeo en consistencia de identidad y calidad visual, generando vídeos de personajes coherentes y que preservan el contexto en diversos movimientos y escenas. Página del proyecto: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.
English
Text-to-video (T2V) generation has advanced rapidly, yet maintaining consistent character identities across scenes remains a major challenge. Existing personalization methods often focus on facial identity but fail to preserve broader contextual cues such as hairstyle, outfit, and body shape, which are critical for visual coherence. We propose ContextAnyone, a context-aware diffusion framework that achieves character-consistent video generation from text and a single reference image. Our method jointly reconstructs the reference image and generates new video frames, enabling the model to fully perceive and utilize reference information. Reference information is effectively integrated into a DiT-based diffusion backbone through a novel Emphasize-Attention module that selectively reinforces reference-aware features and prevents identity drift across frames. A dual-guidance loss combines diffusion and reference reconstruction objectives to enhance appearance fidelity, while the proposed Gap-RoPE positional embedding separates reference and video tokens to stabilize temporal modeling. Experiments demonstrate that ContextAnyone outperforms existing reference-to-video methods in identity consistency and visual quality, generating coherent and context-preserving character videos across diverse motions and scenes. Project page: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.
PDF02December 18, 2025