Focale Sturing: Het Ontgrendelen van Beheersbaarheid vanuit Semantisch-Zwakke Lagen in Video-Diffusiemodellen

Samenvatting

De taak van Image-to-Video (I2V)-generatie heeft als doel een video te synthetiseren vanuit een referentiebeeld en een tekstprompt. Dit vereist dat diffusiemodellen tijdens het denoiseproces hoogfrequente visuele beperkingen en laagfrequente tekstuele begeleiding met elkaar in overeenstemming brengen. Hoewel bestaande I2V-modellen prioriteit geven aan visuele consistentie, blijft de effectieve koppeling van deze dubbele begeleiding om een sterke naleving van de tekstprompt te garanderen onderbelicht. In dit werk observeren we dat in op Diffusion Transformer (DiT) gebaseerde I2V-modellen bepaalde tussenlagen een zwakke semantische respons vertonen (aangeduid als Semantisch-Zwakke Lagen), wat blijkt uit een meetbare daling in tekst-visuele gelijkenis. Wij schrijven dit toe aan een fenomeen genaamd Conditie-Isolatie, waarbij de aandacht voor visuele kenmerken gedeeltelijk loskomt van tekstbegeleiding en te veel leunt op aangeleerde visuele prioriteiten. Om dit aan te pakken, stellen wij Focale Begeleiding (FG) voor, die de bestuurbaarheid van Semantisch-Zwakke Lagen versterkt. FG omvat twee mechanismen: (1) Fijnmazige Semantische Begeleiding (FSG) benut CLIP om sleutelregio's in het referentiekader te identificeren en gebruikt deze als ankers om Semantisch-Zwakke Lagen te sturen. (2) Attention Cache transfert aandachtspunten van semantisch responsieve lagen naar Semantisch-Zwakke Lagen, waarbij expliciete semantische signalen worden geïnjecteerd en de overmatige afhankelijkheid van de aangeleerde visuele prioriteiten van het model wordt verminderd, waardoor de naleving van tekstuele instructies wordt verbeterd. Om onze aanpak verder te valideren en het gebrek aan evaluatie in deze richting aan te pakken, introduceren we een benchmark voor het beoordelen van instructievolging in I2V-modellen. Op deze benchmark bewijst Focale Begeleiding zijn effectiviteit en generaliseerbaarheid door de totalscore op Wan2.1-I2V te verhogen naar 0,7250 (+3,97%) en de op MMDiT gebaseerde HunyuanVideo-I2V te stimuleren naar 0,5571 (+7,44%).

English

The task of Image-to-Video (I2V) generation aims to synthesize a video from a reference image and a text prompt. This requires diffusion models to reconcile high-frequency visual constraints and low-frequency textual guidance during the denoising process. However, while existing I2V models prioritize visual consistency, how to effectively couple this dual guidance to ensure strong adherence to the text prompt remains underexplored. In this work, we observe that in Diffusion Transformer (DiT)-based I2V models, certain intermediate layers exhibit weak semantic responses (termed Semantic-Weak Layers), as indicated by a measurable drop in text-visual similarity. We attribute this to a phenomenon called Condition Isolation, where attention to visual features becomes partially detached from text guidance and overly relies on learned visual priors. To address this, we propose Focal Guidance (FG), which enhances the controllability from Semantic-Weak Layers. FG comprises two mechanisms: (1) Fine-grained Semantic Guidance (FSG) leverages CLIP to identify key regions in the reference frame and uses them as anchors to guide Semantic-Weak Layers. (2) Attention Cache transfers attention maps from semantically responsive layers to Semantic-Weak Layers, injecting explicit semantic signals and alleviating their over-reliance on the model's learned visual priors, thereby enhancing adherence to textual instructions. To further validate our approach and address the lack of evaluation in this direction, we introduce a benchmark for assessing instruction following in I2V models. On this benchmark, Focal Guidance proves its effectiveness and generalizability, raising the total score on Wan2.1-I2V to 0.7250 (+3.97\%) and boosting the MMDiT-based HunyuanVideo-I2V to 0.5571 (+7.44\%).

Focale Sturing: Het Ontgrendelen van Beheersbaarheid vanuit Semantisch-Zwakke Lagen in Video-Diffusiemodellen

Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models

Samenvatting

Support