ChatPaper.aiChatPaper

焦点誘導:ビデオ拡散モデルのセマンティック弱層から制御性を解き放つ

Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models

January 12, 2026
著者: Yuanyang Yin, Yufan Deng, Shenghai Yuan, Kaipeng Zhang, Xiao Yang, Feng Zhao
cs.AI

要旨

画像から動画生成(I2V)タスクは、参照画像とテキストプロンプトから動画を合成することを目的とする。これには、拡散モデルがノイズ除去プロセスにおいて、高周波数の視覚的制約と低周波数のテキストガイダンスを調整することが要求される。しかし、既存のI2Vモデルは視覚的一貫性を重視する一方で、この二重のガイダンスを効果的に結合し、テキストプロンプトへの強固な忠実性を確保する方法は十分に検討されていない。本研究では、Diffusion Transformer(DiT)ベースのI2Vモデルにおいて、特定の中間層が弱い意味的応答(意味的弱層)を示すことを観察した。これは、テキストと視覚の類似性の測定可能な低下によって示される。我々はこれを「条件分離」現象に帰因する。これは、視覚的特徴への注意がテキストガイダンスから部分的に切り離され、学習された視覚的先験に過度に依存する現象である。この問題に対処するため、我々は意味的弱層からの制御性を強化するFocal Guidance(FG)を提案する。FGは二つのメカニズムから構成される:(1)Fine-grained Semantic Guidance(FSG)は、CLIPを活用して参照フレーム内の重要領域を特定し、それらをアンカーとして意味的弱層を導く。(2)Attention Cacheは、意味的に応答性の高い層からの注意マップを意味的弱層に転送し、明示的な意味的信号を注入してモデルの学習済み視覚的先験への過度な依存を軽減し、それによりテキスト指示への忠実性を高める。我々のアプローチをさらに検証し、この方向性における評価の不足に対処するため、I2Vモデルの指示追従性を評価するベンチマークを導入する。このベンチマークにおいて、Focal Guidanceはその有効性と一般化性を実証し、Wan2.1-I2Vにおける総合スコアを0.7250(+3.97%)に引き上げ、MMDiTベースのHunyuanVideo-I2Vを0.5571(+7.44%)に向上させた。
English
The task of Image-to-Video (I2V) generation aims to synthesize a video from a reference image and a text prompt. This requires diffusion models to reconcile high-frequency visual constraints and low-frequency textual guidance during the denoising process. However, while existing I2V models prioritize visual consistency, how to effectively couple this dual guidance to ensure strong adherence to the text prompt remains underexplored. In this work, we observe that in Diffusion Transformer (DiT)-based I2V models, certain intermediate layers exhibit weak semantic responses (termed Semantic-Weak Layers), as indicated by a measurable drop in text-visual similarity. We attribute this to a phenomenon called Condition Isolation, where attention to visual features becomes partially detached from text guidance and overly relies on learned visual priors. To address this, we propose Focal Guidance (FG), which enhances the controllability from Semantic-Weak Layers. FG comprises two mechanisms: (1) Fine-grained Semantic Guidance (FSG) leverages CLIP to identify key regions in the reference frame and uses them as anchors to guide Semantic-Weak Layers. (2) Attention Cache transfers attention maps from semantically responsive layers to Semantic-Weak Layers, injecting explicit semantic signals and alleviating their over-reliance on the model's learned visual priors, thereby enhancing adherence to textual instructions. To further validate our approach and address the lack of evaluation in this direction, we introduce a benchmark for assessing instruction following in I2V models. On this benchmark, Focal Guidance proves its effectiveness and generalizability, raising the total score on Wan2.1-I2V to 0.7250 (+3.97\%) and boosting the MMDiT-based HunyuanVideo-I2V to 0.5571 (+7.44\%).
PDF11January 16, 2026