ChatPaper.aiChatPaper

초점 안내: 비디오 확산 모델의 의미론적 약층에서 제어 가능성 추출하기

Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models

January 12, 2026
저자: Yuanyang Yin, Yufan Deng, Shenghai Yuan, Kaipeng Zhang, Xiao Yang, Feng Zhao
cs.AI

초록

이미지-비디오 변환(I2V) 생성의 목표는 참조 이미지와 텍스트 프롬프트로부터 비디오를 합성하는 것입니다. 이는 디노이징 과정에서 확산 모델이 고주파 시각적 제약 조건과 저주파 텍스트 지침을 조화롭게 결합해야 함을 의미합니다. 그러나 기존 I2V 모델들은 시각적 일관성을 우선시하는 반면, 이 이중 지침을 효과적으로 결합하여 텍스트 프롬프트에 대한 강력한 준수를 보장하는 방법은 충분히 연구되지 않았습니다. 본 연구에서는 Diffusion Transformer(DiT) 기반 I2V 모델에서 특정 중간 계층들이 텍스트-시각적 유사성 측정치의 감소로 나타나는 약한 의미론적 응답(의미론적 약화 계층)을 보인다는 점을 관찰했습니다. 우리는 이를 시각적 특징에 대한 주의가 텍스트 지침에서 부분적으로 분리되고 학습된 시각적 사전 지식에 지나치게 의존하는 '조건 격리' 현상으로 규명했습니다. 이를 해결하기 위해 의미론적 약화 계층의 제어 가능성을 향상시키는 Focal Guidance(FG)를 제안합니다. FG는 두 가지 메커니즘으로 구성됩니다: (1) Fine-grained Semantic Guidance(FSG)는 CLIP을 활용하여 참조 프레임의 주요 영역을 식별하고 이를 앵커로 사용하여 의미론적 약화 계층을 유도합니다. (2) Attention Cache는 의미론적으로 응답성이 높은 계층의 주의 맵을 의미론적 약화 계층으로 전달하여 명시적인 의미론적 신호를 주입하고 모델의 학습된 시각적 사전 지식에 대한 과도한 의존을 완화함으로써 텍스트 지침 준수를 강화합니다. 우리의 접근법을 추가로 검증하고 이 방향의 평가 부족 문제를 해결하기 위해 I2V 모델의 지침 수행 능력을 평가하는 벤치마크를 도입했습니다. 이 벤치마크에서 Focal Guidance는 그 효과성과 일반화 가능성을 입증하며, Wan2.1-I2V에서 총점을 0.7250(+3.97%)으로 향상시키고, MMDiT 기반 HunyuanVideo-I2V를 0.5571(+7.44%)까지 끌어올렸습니다.
English
The task of Image-to-Video (I2V) generation aims to synthesize a video from a reference image and a text prompt. This requires diffusion models to reconcile high-frequency visual constraints and low-frequency textual guidance during the denoising process. However, while existing I2V models prioritize visual consistency, how to effectively couple this dual guidance to ensure strong adherence to the text prompt remains underexplored. In this work, we observe that in Diffusion Transformer (DiT)-based I2V models, certain intermediate layers exhibit weak semantic responses (termed Semantic-Weak Layers), as indicated by a measurable drop in text-visual similarity. We attribute this to a phenomenon called Condition Isolation, where attention to visual features becomes partially detached from text guidance and overly relies on learned visual priors. To address this, we propose Focal Guidance (FG), which enhances the controllability from Semantic-Weak Layers. FG comprises two mechanisms: (1) Fine-grained Semantic Guidance (FSG) leverages CLIP to identify key regions in the reference frame and uses them as anchors to guide Semantic-Weak Layers. (2) Attention Cache transfers attention maps from semantically responsive layers to Semantic-Weak Layers, injecting explicit semantic signals and alleviating their over-reliance on the model's learned visual priors, thereby enhancing adherence to textual instructions. To further validate our approach and address the lack of evaluation in this direction, we introduce a benchmark for assessing instruction following in I2V models. On this benchmark, Focal Guidance proves its effectiveness and generalizability, raising the total score on Wan2.1-I2V to 0.7250 (+3.97\%) and boosting the MMDiT-based HunyuanVideo-I2V to 0.5571 (+7.44\%).
PDF11January 16, 2026