ChatPaper.aiChatPaper

KontextJeder: Kontextbewusste Diffusion für charakterkonsistente Text-zu-Video-Generierung

ContextAnyone: Context-Aware Diffusion for Character-Consistent Text-to-Video Generation

December 8, 2025
papers.authors: Ziyang Mai, Yu-Wing Tai
cs.AI

papers.abstract

Die Text-zu-Video (T2V)-Generierung hat rasante Fortschritte gemacht, doch die Beibehaltung einer konsistenten Charakteridentität über verschiedene Szenen hinweg bleibt eine große Herausforderung. Bestehende Personalisierungsmethoden konzentrieren sich oft auf die Gesichtsidentität, scheitern aber daran, weiterreichende kontextuelle Hinweise wie Frisur, Outfit und Körperform zu bewahren, die für visuelle Kohärenz entscheidend sind. Wir stellen ContextAnyone vor, ein kontextbewusstes Diffusionsframework, das eine charakterkonsistente Videogenerierung aus Text und einem einzelnen Referenzbild ermöglicht. Unsere Methode rekonstruiert gemeinsam das Referenzbild und generiert neue Videobilder, wodurch das Modell in die Lage versetzt wird, Referenzinformationen vollständig wahrzunehmen und zu nutzen. Referenzinformationen werden durch ein neuartiges Emphasize-Attention-Modul effektiv in ein DiT-basiertes Diffusions-Backbone integriert, das referenzsensitive Merkmale selektiv verstärkt und Identitätsdrift über Bilder hinweg verhindert. Ein Dual-Guidance-Loss kombiniert Diffusions- und Referenzrekonstruktionsziele, um die Erscheinungstreue zu verbessern, während die vorgeschlagene Gap-RoPE-Positionscodierung Referenz- und Videotokens trennt, um die zeitliche Modellierung zu stabilisieren. Experimente zeigen, dass ContextAnyone bestehende Referenz-zu-Video-Methoden in Bezug auf Identitätskonsistenz und visuelle Qualität übertrifft und kohärente, kontextbewahrende Charaktervideos über verschiedene Bewegungen und Szenen hinweg generiert. Projektseite: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.
English
Text-to-video (T2V) generation has advanced rapidly, yet maintaining consistent character identities across scenes remains a major challenge. Existing personalization methods often focus on facial identity but fail to preserve broader contextual cues such as hairstyle, outfit, and body shape, which are critical for visual coherence. We propose ContextAnyone, a context-aware diffusion framework that achieves character-consistent video generation from text and a single reference image. Our method jointly reconstructs the reference image and generates new video frames, enabling the model to fully perceive and utilize reference information. Reference information is effectively integrated into a DiT-based diffusion backbone through a novel Emphasize-Attention module that selectively reinforces reference-aware features and prevents identity drift across frames. A dual-guidance loss combines diffusion and reference reconstruction objectives to enhance appearance fidelity, while the proposed Gap-RoPE positional embedding separates reference and video tokens to stabilize temporal modeling. Experiments demonstrate that ContextAnyone outperforms existing reference-to-video methods in identity consistency and visual quality, generating coherent and context-preserving character videos across diverse motions and scenes. Project page: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.
PDF12February 7, 2026