ChatPaper.aiChatPaper

Фокальное управление: Раскрытие управляемости из семантически слабых слоев в видеодиффузионных моделях

Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models

January 12, 2026
Авторы: Yuanyang Yin, Yufan Deng, Shenghai Yuan, Kaipeng Zhang, Xiao Yang, Feng Zhao
cs.AI

Аннотация

Задача генерации видео из изображений (Image-to-Video, I2V) направлена на синтез видео на основе эталонного изображения и текстового промпта. Это требует от диффузионных моделей согласования высокочастотных визуальных ограничений и низкочастотных текстовых указаний в процессе деноизинга. Однако, хотя существующие модели I2V уделяют приоритетное внимание визуальной согласованности, вопрос эффективного объединения этого двойного руководства для обеспечения строгого следования текстовому промпту остается малоизученным. В данной работе мы наблюдаем, что в моделях I2V на основе Diffusion Transformer (DiT) определенные промежуточные слои демонстрируют слабые семантические отклики (названные Семантически-Слабыми Слоями), что проявляется в измеримом падении текстово-визуального сходства. Мы объясняем это явлением, называемым "Изоляцией Условий", при котором внимание к визуальным признакам частично отрывается от текстовых указаний и чрезмерно полагается на выученные визуальные паттерны. Для решения этой проблемы мы предлагаем Фокальное Руководство (Focal Guidance, FG), которое усиливает управляемость со стороны Семантически-Слабых Слоев. FG включает два механизма: (1) Детальное Семантическое Руководство (Fine-grained Semantic Guidance, FSG) использует CLIP для идентификации ключевых областей в эталонном кадре и применяет их в качестве якоря для направления Семантически-Слабых Слоев. (2) Кэширование Внимания (Attention Cache) передает карты внимания из семантически отзывчивых слоев в Семантически-Слабые Слои, внедряя явные семантические сигналы и снижая их чрезмерную зависимость от выученных визуальных паттернов модели, тем самым усиливая adherence к текстовым инструкциям. Для дальнейшей валидации нашего подхода и решения проблемы отсутствия оценки в этом направлении мы представляем бенчмарк для оценки следования инструкциям в моделях I2V. На этом бенчмарке Фокальное Руководство доказывает свою эффективность и обобщаемость, повышая общий балл на Wan2.1-I2V до 0.7250 (+3.97%) и увеличивая показатель основанной на MMDiT модели HunyuanVideo-I2V до 0.5571 (+7.44%).
English
The task of Image-to-Video (I2V) generation aims to synthesize a video from a reference image and a text prompt. This requires diffusion models to reconcile high-frequency visual constraints and low-frequency textual guidance during the denoising process. However, while existing I2V models prioritize visual consistency, how to effectively couple this dual guidance to ensure strong adherence to the text prompt remains underexplored. In this work, we observe that in Diffusion Transformer (DiT)-based I2V models, certain intermediate layers exhibit weak semantic responses (termed Semantic-Weak Layers), as indicated by a measurable drop in text-visual similarity. We attribute this to a phenomenon called Condition Isolation, where attention to visual features becomes partially detached from text guidance and overly relies on learned visual priors. To address this, we propose Focal Guidance (FG), which enhances the controllability from Semantic-Weak Layers. FG comprises two mechanisms: (1) Fine-grained Semantic Guidance (FSG) leverages CLIP to identify key regions in the reference frame and uses them as anchors to guide Semantic-Weak Layers. (2) Attention Cache transfers attention maps from semantically responsive layers to Semantic-Weak Layers, injecting explicit semantic signals and alleviating their over-reliance on the model's learned visual priors, thereby enhancing adherence to textual instructions. To further validate our approach and address the lack of evaluation in this direction, we introduce a benchmark for assessing instruction following in I2V models. On this benchmark, Focal Guidance proves its effectiveness and generalizability, raising the total score on Wan2.1-I2V to 0.7250 (+3.97\%) and boosting the MMDiT-based HunyuanVideo-I2V to 0.5571 (+7.44\%).
PDF11January 16, 2026