Orientação Focal: Desbloqueando a Controlabilidade a partir de Camadas Semanticamente Fracas em Modelos de Difusão de Vídeo

Resumo

A tarefa de geração de Imagem-para-Vídeo (I2V) visa sintetizar um vídeo a partir de uma imagem de referência e um prompt de texto. Isto exige que os modelos de difusão reconciliem restrições visuais de alta frequência e orientação textual de baixa frequência durante o processo de eliminação de ruído. No entanto, embora os modelos I2V existentes priorizem a consistência visual, a forma de acoplar eficazmente esta dupla orientação para garantir uma forte adesão ao prompt de texto permanece pouco explorada. Neste trabalho, observamos que em modelos I2V baseados em Transformadores de Difusão (DiT), certas camadas intermédias exibem respostas semânticas fracas (denominadas Camadas Semanticamente Fracas), conforme indicado por uma queda mensurável na similaridade texto-visual. Atribuímos isto a um fenómeno denominado Isolamento de Condição, onde a atenção às características visuais se desprende parcialmente da orientação textual e depende excessivamente de prioris visuais aprendidas. Para resolver isto, propomos a Orientação Focal (FG), que melhora a controlabilidade das Camadas Semanticamente Fracas. A FG compreende dois mecanismos: (1) A Orientação Semântica de Granulação Fina (FSG) aproveita o CLIP para identificar regiões-chave no frame de referência e usá-las como âncoras para orientar as Camadas Semanticamente Fracas. (2) A Cache de Atenção transfere mapas de atenção de camadas semanticamente responsivas para as Camadas Semanticamente Fracas, injetando sinais semânticos explícitos e aliviando a sua excessiva dependência dos prioris visuais aprendidos pelo modelo, melhorando assim a adesão às instruções textuais. Para validar ainda mais a nossa abordagem e colmatar a falta de avaliação nesta direção, introduzimos um benchmark para avaliar o seguimento de instruções em modelos I2V. Neste benchmark, a Orientação Focal comprova a sua eficácia e generalizabilidade, elevando a pontuação total no Wan2.1-I2V para 0.7250 (+3.97%) e impulsionando o HunyuanVideo-I2V baseado em MMDiT para 0.5571 (+7.44%).

English

The task of Image-to-Video (I2V) generation aims to synthesize a video from a reference image and a text prompt. This requires diffusion models to reconcile high-frequency visual constraints and low-frequency textual guidance during the denoising process. However, while existing I2V models prioritize visual consistency, how to effectively couple this dual guidance to ensure strong adherence to the text prompt remains underexplored. In this work, we observe that in Diffusion Transformer (DiT)-based I2V models, certain intermediate layers exhibit weak semantic responses (termed Semantic-Weak Layers), as indicated by a measurable drop in text-visual similarity. We attribute this to a phenomenon called Condition Isolation, where attention to visual features becomes partially detached from text guidance and overly relies on learned visual priors. To address this, we propose Focal Guidance (FG), which enhances the controllability from Semantic-Weak Layers. FG comprises two mechanisms: (1) Fine-grained Semantic Guidance (FSG) leverages CLIP to identify key regions in the reference frame and uses them as anchors to guide Semantic-Weak Layers. (2) Attention Cache transfers attention maps from semantically responsive layers to Semantic-Weak Layers, injecting explicit semantic signals and alleviating their over-reliance on the model's learned visual priors, thereby enhancing adherence to textual instructions. To further validate our approach and address the lack of evaluation in this direction, we introduce a benchmark for assessing instruction following in I2V models. On this benchmark, Focal Guidance proves its effectiveness and generalizability, raising the total score on Wan2.1-I2V to 0.7250 (+3.97\%) and boosting the MMDiT-based HunyuanVideo-I2V to 0.5571 (+7.44\%).

Orientação Focal: Desbloqueando a Controlabilidade a partir de Camadas Semanticamente Fracas em Modelos de Difusão de Vídeo

Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models

Resumo

Support