ChatPaper.aiChatPaper

Fokale Steuerung: Erschließung der Kontrollierbarkeit aus semantikschwachen Schichten in Video-Diffusionsmodellen

Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models

January 12, 2026
papers.authors: Yuanyang Yin, Yufan Deng, Shenghai Yuan, Kaipeng Zhang, Xiao Yang, Feng Zhao
cs.AI

papers.abstract

Die Aufgabe der Bild-zu-Video-Generierung (I2V) zielt darauf ab, ein Video aus einem Referenzbild und einer Textbeschreibung zu synthetisieren. Dies erfordert von Diffusionsmodellen, während des Denoising-Prozesses hochfrequente visuelle Randbedingungen und niederfrequente textuelle Steuerung in Einklang zu bringen. Während bestehende I2V-Modelle jedoch visuelle Konsistenz priorisieren, ist die effektive Kopplung dieser dualen Steuerung zur Gewährleistung einer starken Texttreue bislang unzureichend erforscht. In dieser Arbeit beobachten wir, dass in auf Diffusion Transformern (DiT) basierenden I2V-Modellen bestimmte Zwischenschichten schwache semantische Antworten zeigen (sogenannte Semantic-Weak Layers), erkennbar an einem messbaren Abfall der Text-Visual-Ähnlichkeit. Wir führen dies auf ein Phänomen zurück, das wir als Condition Isolation bezeichnen, bei dem sich die Aufmerksamkeit für visuelle Merkmale teilweise von der Textsteuerung löst und sich übermäßig auf erlernte visuelle Priori verlässt. Um dies zu adressieren, schlagen wir Focal Guidance (FG) vor, das die Steuerbarkeit durch Semantic-Weak Layers verbessert. FG umfasst zwei Mechanismen: (1) Fine-grained Semantic Guidance (FSG) nutzt CLIP, um Schlüsselregionen im Referenzbild zu identifizieren und diese als Ankerpunkte zur Führung der Semantic-Weak Layers einzusetzen. (2) Attention Cache überträgt Aufmerksamkeitskarten aus semantisch responsiven Schichten auf Semantic-Weak Layers, injiziert explizite semantische Signale und mildert deren übermäßige Abhängigkeit von den erlernten visuellen Priori des Modells, wodurch die Befolgung textueller Anweisungen verbessert wird. Um unseren Ansatz weiter zu validieren und den Mangel an Evaluation in dieser Richtung zu beheben, führen wir einen Benchmark zur Bewertung der Anweisungsbefolgung in I2V-Modellen ein. Auf diesem Benchmark erweist sich Focal Guidance als effektiv und generalisierbar, steigert die Gesamtpunktzahl auf Wan2.1-I2V auf 0,7250 (+3,97 %) und verbessert das auf MMDiT basierende HunyuanVideo-I2V auf 0,5571 (+7,44 %).
English
The task of Image-to-Video (I2V) generation aims to synthesize a video from a reference image and a text prompt. This requires diffusion models to reconcile high-frequency visual constraints and low-frequency textual guidance during the denoising process. However, while existing I2V models prioritize visual consistency, how to effectively couple this dual guidance to ensure strong adherence to the text prompt remains underexplored. In this work, we observe that in Diffusion Transformer (DiT)-based I2V models, certain intermediate layers exhibit weak semantic responses (termed Semantic-Weak Layers), as indicated by a measurable drop in text-visual similarity. We attribute this to a phenomenon called Condition Isolation, where attention to visual features becomes partially detached from text guidance and overly relies on learned visual priors. To address this, we propose Focal Guidance (FG), which enhances the controllability from Semantic-Weak Layers. FG comprises two mechanisms: (1) Fine-grained Semantic Guidance (FSG) leverages CLIP to identify key regions in the reference frame and uses them as anchors to guide Semantic-Weak Layers. (2) Attention Cache transfers attention maps from semantically responsive layers to Semantic-Weak Layers, injecting explicit semantic signals and alleviating their over-reliance on the model's learned visual priors, thereby enhancing adherence to textual instructions. To further validate our approach and address the lack of evaluation in this direction, we introduce a benchmark for assessing instruction following in I2V models. On this benchmark, Focal Guidance proves its effectiveness and generalizability, raising the total score on Wan2.1-I2V to 0.7250 (+3.97\%) and boosting the MMDiT-based HunyuanVideo-I2V to 0.5571 (+7.44\%).
PDF11January 16, 2026