ChatPaper.aiChatPaper

ContextAnyone: Contextbewuste diffusie voor karakterconsistente tekst-naar-video-generatie

ContextAnyone: Context-Aware Diffusion for Character-Consistent Text-to-Video Generation

December 8, 2025
Auteurs: Ziyang Mai, Yu-Wing Tai
cs.AI

Samenvatting

Text-to-video (T2V)-generatie heeft een snelle ontwikkeling doorgemaakt, maar het handhaven van consistente personage-identiteiten in verschillende scènes blijft een grote uitdaging. Bestaande personalisatiemethoden richten zich vaak op gezichtsidentiteit, maar slagen er niet in bredere contextuele aanwijzingen zoals kapsel, kleding en lichaamsvorm te behouden, die cruciaal zijn voor visuele samenhang. Wij stellen ContextAnyone voor, een contextbewust diffusiekader dat consistente personagevideogeneratie uit tekst en een enkele referentieafbeelding realiseert. Onze methode reconstrueert gezamenlijk de referentieafbeelding en genereert nieuwe videoframes, waardoor het model referentie-informatie volledig kan waarnemen en benutten. Referentie-informatie wordt effectief geïntegreerd in een op DiT gebaseerde diffusie-backbone via een nieuwe Emphasize-Attention-module die selectief referentiebewuste kenmerken versterkt en identiteitsverloop tussen frames voorkomt. Een dual-guidance-verliesfunctie combineert diffusie- en referentiereconstructiedoelen om de uiterlijke geloofwaardigheid te verbeteren, terwijl de voorgestelde Gap-RoPE-positie-embedding referentie- en videotokens scheidt om temporele modellering te stabiliseren. Experimenten tonen aan dat ContextAnyone bestaande referentie-naar-video-methoden overtreft op het gebied van identiteitsconsistentie en visuele kwaliteit, en coherente, contextbewuste personagevideo's genereert in diverse bewegingen en scènes. Projectpagina: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.
English
Text-to-video (T2V) generation has advanced rapidly, yet maintaining consistent character identities across scenes remains a major challenge. Existing personalization methods often focus on facial identity but fail to preserve broader contextual cues such as hairstyle, outfit, and body shape, which are critical for visual coherence. We propose ContextAnyone, a context-aware diffusion framework that achieves character-consistent video generation from text and a single reference image. Our method jointly reconstructs the reference image and generates new video frames, enabling the model to fully perceive and utilize reference information. Reference information is effectively integrated into a DiT-based diffusion backbone through a novel Emphasize-Attention module that selectively reinforces reference-aware features and prevents identity drift across frames. A dual-guidance loss combines diffusion and reference reconstruction objectives to enhance appearance fidelity, while the proposed Gap-RoPE positional embedding separates reference and video tokens to stabilize temporal modeling. Experiments demonstrate that ContextAnyone outperforms existing reference-to-video methods in identity consistency and visual quality, generating coherent and context-preserving character videos across diverse motions and scenes. Project page: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.
PDF02December 18, 2025