Guida Focale: Sbloccare la Controllabilità dagli Strati Semanticamente Deboli nei Modelli di Diffusione Video

Abstract

Il compito della generazione da immagine a video (Image-to-Video, I2V) mira a sintetizzare un video a partire da un'immagine di riferimento e da un prompt testuale. Ciò richiede ai modelli di diffusione di conciliare i vincoli visivi ad alta frequenza e la guida testuale a bassa frequenza durante il processo di denoising. Tuttavia, sebbene i modelli I2V esistenti diano priorità alla coerenza visiva, la modalità per accoppiare efficacemente questa doppia guida al fine di garantire una forte aderenza al prompt testuale rimane poco esplorata. In questo lavoro, osserviamo che nei modelli I2V basati su Diffusion Transformer (DiT), alcuni strati intermedi presentano risposte semantiche deboli (denominati Semantic-Weak Layers), come indicato da un calo misurabile nella similarità testo-visuale. Attribuiamo ciò a un fenomeno chiamato Condition Isolation, in cui l'attenzione alle caratteristiche visive si disaccoppia parzialmente dalla guida testuale e si affida eccessivamente a priorità visive apprese. Per affrontare questo problema, proponiamo la Focal Guidance (FG), che migliora la controllabilità degli Semantic-Weak Layers. FG comprende due meccanismi: (1) la Fine-grained Semantic Guidance (FSG) sfrutta CLIP per identificare le regioni chiave nel frame di riferimento e le utilizza come ancore per guidare gli Semantic-Weak Layers. (2) L'Attention Cache trasferisce le mappe di attenzione dagli strati semanticamente responsivi agli Semantic-Weak Layers, iniettando segnali semantici espliciti e alleviando la loro eccessiva dipendenza dalle priorità visive apprese dal modello, migliorando così l'aderenza alle istruzioni testuali. Per convalidare ulteriormente il nostro approccio e colmare la carenza di valutazione in questa direzione, introduciamo un benchmark per valutare il seguimento delle istruzioni nei modelli I2V. Su questo benchmark, Focal Guidance dimostra la sua efficacia e generalizzabilità, portando il punteggio totale su Wan2.1-I2V a 0,7250 (+3,97%) e incrementando il modello HunyuanVideo-I2V basato su MMDiT a 0,5571 (+7,44%).

English

The task of Image-to-Video (I2V) generation aims to synthesize a video from a reference image and a text prompt. This requires diffusion models to reconcile high-frequency visual constraints and low-frequency textual guidance during the denoising process. However, while existing I2V models prioritize visual consistency, how to effectively couple this dual guidance to ensure strong adherence to the text prompt remains underexplored. In this work, we observe that in Diffusion Transformer (DiT)-based I2V models, certain intermediate layers exhibit weak semantic responses (termed Semantic-Weak Layers), as indicated by a measurable drop in text-visual similarity. We attribute this to a phenomenon called Condition Isolation, where attention to visual features becomes partially detached from text guidance and overly relies on learned visual priors. To address this, we propose Focal Guidance (FG), which enhances the controllability from Semantic-Weak Layers. FG comprises two mechanisms: (1) Fine-grained Semantic Guidance (FSG) leverages CLIP to identify key regions in the reference frame and uses them as anchors to guide Semantic-Weak Layers. (2) Attention Cache transfers attention maps from semantically responsive layers to Semantic-Weak Layers, injecting explicit semantic signals and alleviating their over-reliance on the model's learned visual priors, thereby enhancing adherence to textual instructions. To further validate our approach and address the lack of evaluation in this direction, we introduce a benchmark for assessing instruction following in I2V models. On this benchmark, Focal Guidance proves its effectiveness and generalizability, raising the total score on Wan2.1-I2V to 0.7250 (+3.97\%) and boosting the MMDiT-based HunyuanVideo-I2V to 0.5571 (+7.44\%).

Guida Focale: Sbloccare la Controllabilità dagli Strati Semanticamente Deboli nei Modelli di Diffusione Video

Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models

Abstract

Support