Guidance Focale : Libérer la contrôlabilité depuis les couches sémantiquement faibles dans les modèles de diffusion vidéo
Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models
January 12, 2026
papers.authors: Yuanyang Yin, Yufan Deng, Shenghai Yuan, Kaipeng Zhang, Xiao Yang, Feng Zhao
cs.AI
papers.abstract
La tâche de génération Image-vers-Vidéo (I2V) vise à synthétiser une vidéo à partir d'une image de référence et d'une instruction textuelle. Cela nécessite que les modèles de diffusion concilient des contraintes visuelles haute fréquence et un guidage textuel basse fréquence pendant le processus de débruitage. Cependant, si les modèles I2V existants privilégient la cohérence visuelle, la manière de coupler efficacement ce double guidage pour assurer une forte adhérence à l'instruction textuelle reste peu explorée. Dans ce travail, nous observons que dans les modèles I2V basés sur les Transformers de Diffusion (DiT), certaines couches intermédiaires présentent des réponses sémantiques faibles (appelées Couches à Sémantique Faible), comme l'indique une baisse mesurable de la similarité texte-visuel. Nous attribuons cela à un phénomène appelé Isolement des Conditions, où l'attention portée aux caractéristiques visuelles se détache partiellement du guidage textuel et repose excessivement sur des prérequis visuels appris. Pour résoudre ce problème, nous proposons le Guidage Focal (FG), qui améliore la contrôlabilité des Couches à Sémantique Faible. FG comprend deux mécanismes : (1) Le Guidage Sémantique Fin (FSG) utilise CLIP pour identifier les régions clés de l'image de référence et les utilise comme ancres pour guider les Couches à Sémantique Faible. (2) La Mémoire d'Attention transfère les cartes d'attention des couches sémantiquement réactives vers les Couches à Sémantique Faible, injectant des signaux sémantiques explicites et réduisant leur dépendance excessive aux prérequis visuels appris par le modèle, améliorant ainsi l'adhésion aux instructions textuelles. Pour valider davantage notre approche et combler le manque d'évaluation dans cette direction, nous introduisons un benchmark pour évaluer le suivi des instructions dans les modèles I2V. Sur ce benchmark, le Guidage Focal démontre son efficacité et sa généralisabilité, portant le score total sur Wan2.1-I2V à 0,7250 (+3,97 %) et faisant grimper le HunyuanVideo-I2V basé sur MMDiT à 0,5571 (+7,44 %).
English
The task of Image-to-Video (I2V) generation aims to synthesize a video from a reference image and a text prompt. This requires diffusion models to reconcile high-frequency visual constraints and low-frequency textual guidance during the denoising process. However, while existing I2V models prioritize visual consistency, how to effectively couple this dual guidance to ensure strong adherence to the text prompt remains underexplored. In this work, we observe that in Diffusion Transformer (DiT)-based I2V models, certain intermediate layers exhibit weak semantic responses (termed Semantic-Weak Layers), as indicated by a measurable drop in text-visual similarity. We attribute this to a phenomenon called Condition Isolation, where attention to visual features becomes partially detached from text guidance and overly relies on learned visual priors. To address this, we propose Focal Guidance (FG), which enhances the controllability from Semantic-Weak Layers. FG comprises two mechanisms: (1) Fine-grained Semantic Guidance (FSG) leverages CLIP to identify key regions in the reference frame and uses them as anchors to guide Semantic-Weak Layers. (2) Attention Cache transfers attention maps from semantically responsive layers to Semantic-Weak Layers, injecting explicit semantic signals and alleviating their over-reliance on the model's learned visual priors, thereby enhancing adherence to textual instructions. To further validate our approach and address the lack of evaluation in this direction, we introduce a benchmark for assessing instruction following in I2V models. On this benchmark, Focal Guidance proves its effectiveness and generalizability, raising the total score on Wan2.1-I2V to 0.7250 (+3.97\%) and boosting the MMDiT-based HunyuanVideo-I2V to 0.5571 (+7.44\%).