Guía Focal: Desbloqueando la Controlabilidad desde Capas Semántico-Débiles en Modelos de Difusión de Video
Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models
January 12, 2026
Autores: Yuanyang Yin, Yufan Deng, Shenghai Yuan, Kaipeng Zhang, Xiao Yang, Feng Zhao
cs.AI
Resumen
La tarea de generación de Imagen-a-Video (I2V) tiene como objetivo sintetizar un vídeo a partir de una imagen de referencia y un texto descriptivo. Esto requiere que los modelos de difusión reconcilien restricciones visuales de alta frecuencia y guías textuales de baja frecuencia durante el proceso de eliminación de ruido. Sin embargo, aunque los modelos I2V existentes priorizan la coherencia visual, cómo acoplar efectivamente esta doble guía para garantizar una fuerte adherencia al texto descriptivo sigue siendo un área poco explorada. En este trabajo, observamos que en los modelos I2V basados en Transformadores de Difusión (DiT), ciertas capas intermedias exhiben respuestas semánticas débiles (denominadas Capas Semántico-Débiles), como lo indica una caída medible en la similitud texto-visual. Atribuimos esto a un fenómeno llamado Aislamiento de Condición, donde la atención a las características visuales se desacopla parcialmente de la guía textual y depende excesivamente de los priores visuales aprendidos. Para abordar esto, proponemos Guía Focal (FG), que mejora la controlabilidad de las Capas Semántico-Débiles. FG comprende dos mecanismos: (1) La Guía Semántica de Grano Fino (FSG) aprovecha CLIP para identificar regiones clave en el fotograma de referencia y las utiliza como anclas para guiar a las Capas Semántico-Débiles. (2) La Caché de Atención transfiere mapas de atención desde capas semánticamente responsivas a las Capas Semántico-Débiles, inyectando señales semánticas explícitas y aliviando su excesiva dependencia de los priores visuales aprendidos por el modelo, mejorando así la adherencia a las instrucciones textuales. Para validar aún más nuestro enfoque y abordar la falta de evaluación en esta dirección, introducimos un benchmark para evaluar el seguimiento de instrucciones en modelos I2V. En este benchmark, la Guía Focal demuestra su efectividad y generalización, elevando la puntuación total en Wan2.1-I2V a 0.7250 (+3.97\%) e impulsando al HunyuanVideo-I2V basado en MMDiT a 0.5571 (+7.44\%).
English
The task of Image-to-Video (I2V) generation aims to synthesize a video from a reference image and a text prompt. This requires diffusion models to reconcile high-frequency visual constraints and low-frequency textual guidance during the denoising process. However, while existing I2V models prioritize visual consistency, how to effectively couple this dual guidance to ensure strong adherence to the text prompt remains underexplored. In this work, we observe that in Diffusion Transformer (DiT)-based I2V models, certain intermediate layers exhibit weak semantic responses (termed Semantic-Weak Layers), as indicated by a measurable drop in text-visual similarity. We attribute this to a phenomenon called Condition Isolation, where attention to visual features becomes partially detached from text guidance and overly relies on learned visual priors. To address this, we propose Focal Guidance (FG), which enhances the controllability from Semantic-Weak Layers. FG comprises two mechanisms: (1) Fine-grained Semantic Guidance (FSG) leverages CLIP to identify key regions in the reference frame and uses them as anchors to guide Semantic-Weak Layers. (2) Attention Cache transfers attention maps from semantically responsive layers to Semantic-Weak Layers, injecting explicit semantic signals and alleviating their over-reliance on the model's learned visual priors, thereby enhancing adherence to textual instructions. To further validate our approach and address the lack of evaluation in this direction, we introduce a benchmark for assessing instruction following in I2V models. On this benchmark, Focal Guidance proves its effectiveness and generalizability, raising the total score on Wan2.1-I2V to 0.7250 (+3.97\%) and boosting the MMDiT-based HunyuanVideo-I2V to 0.5571 (+7.44\%).