ChatPaper.aiChatPaper

КонтекстAnyone: Контекстно-ориентированная диффузия для генерации видео из текста с сохранением согласованности персонажей

ContextAnyone: Context-Aware Diffusion for Character-Consistent Text-to-Video Generation

December 8, 2025
Авторы: Ziyang Mai, Yu-Wing Tai
cs.AI

Аннотация

Генерация видео по тексту (Text-to-video, T2V) быстро развивается, однако сохранение согласованной идентичности персонажа между сценами остается серьезной проблемой. Существующие методы персонализации часто фокусируются на лицевой идентичности, но не сохраняют более широкие контекстные признаки, такие как прическа, одежда и телосложение, которые критически важны для визуальной целостности. Мы предлагаем ContextAnyone, контекстно-ориентированную диффузионную архитектуру, которая обеспечивает генерацию видео с согласованными персонажами из текста и одного эталонного изображения. Наш метод совместно реконструирует эталонное изображение и генерирует новые кадры видео, позволяя модели полностью воспринимать и использовать эталонную информацию. Эталонная информация эффективно интегрируется в диффузионную основу на базе DiT с помощью нового модуля Emphasize-Attention, который выборочно усиливает признаки, учитывающие эталон, и предотвращает дрейф идентичности между кадрами. Двойная функция потерь объединяет цели диффузии и реконструкции эталона для повышения точности воспроизведения внешнего вида, в то время как предложенное позиционное кодирование Gap-RoPE разделяет токены эталона и видео для стабилизации временного моделирования. Эксперименты показывают, что ContextAnyone превосходит существующие методы генерации видео по эталону по согласованности идентичности и визуальному качеству, создавая последовательные видео с персонажами, сохраняющими контекст, в различных движениях и сценах. Страница проекта: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.
English
Text-to-video (T2V) generation has advanced rapidly, yet maintaining consistent character identities across scenes remains a major challenge. Existing personalization methods often focus on facial identity but fail to preserve broader contextual cues such as hairstyle, outfit, and body shape, which are critical for visual coherence. We propose ContextAnyone, a context-aware diffusion framework that achieves character-consistent video generation from text and a single reference image. Our method jointly reconstructs the reference image and generates new video frames, enabling the model to fully perceive and utilize reference information. Reference information is effectively integrated into a DiT-based diffusion backbone through a novel Emphasize-Attention module that selectively reinforces reference-aware features and prevents identity drift across frames. A dual-guidance loss combines diffusion and reference reconstruction objectives to enhance appearance fidelity, while the proposed Gap-RoPE positional embedding separates reference and video tokens to stabilize temporal modeling. Experiments demonstrate that ContextAnyone outperforms existing reference-to-video methods in identity consistency and visual quality, generating coherent and context-preserving character videos across diverse motions and scenes. Project page: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.
PDF02December 18, 2025