GenHancer: 불완전한 생성 모델이 은밀히 강력한 비전 중심 강화기
GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers
March 25, 2025
저자: Shijie Ma, Yuying Ge, Teng Wang, Yuxin Guo, Yixiao Ge, Ying Shan
cs.AI
초록
생성 모델과 판별 모델 간의 시너지는 점점 더 많은 관심을 받고 있습니다. 판별 모델인 Contrastive Language-Image Pre-Training(CLIP)은 고차원 의미 이해에서 뛰어난 성능을 보이지만, 세밀한 시각적 디테일을 인식하는 데는 어려움을 겪습니다. 일반적으로 표현을 강화하기 위해 생성 모델은 CLIP의 시각적 특징을 재구성을 위한 조건으로 사용합니다. 그러나 이에 대한 근본적인 원리는 아직 충분히 탐구되지 않았습니다. 본 연구에서 우리는 시각적으로 완벽한 생성이 항상 표현 강화에 최적이 아니라는 것을 실증적으로 발견했습니다. 핵심은 생성 모델에서 세밀한 지식을 효과적으로 추출하면서 관련 없는 정보를 줄이는 데 있습니다. 이를 위해 우리는 세 가지 측면을 깊이 있게 탐구했습니다: (1) 조건화 메커니즘: 소수의 지역 토큰만으로도 재구성의 난이도를 크게 낮춰 학습이 붕괴될 수 있다는 것을 발견했습니다. 따라서 전역 시각적 토큰만을 조건으로 사용하는 것이 가장 효과적인 전략임을 결론지었습니다. (2) 노이즈 제거 설정: 종단 간 학습은 불필요한 정보를 유발한다는 것을 관찰했습니다. 이를 해결하기 위해 유용한 시각적 지식을 우선적으로 학습하는 두 단계 학습 전략을 제안합니다. 또한, 경량화된 노이즈 제거기가 놀라운 개선을 가져올 수 있음을 입증했습니다. (3) 생성 패러다임: 연속적 및 이산적 노이즈 제거기를 모두 탐구하여 바람직한 결과를 얻었으며, 이는 우리 방법의 다양성을 검증합니다. 이러한 심층적인 탐구를 통해 우리는 GenHancer라는 효과적인 방법을 도출했으며, 이는 MMVP-VLM 벤치마크에서 기존 기술을 꾸준히 능가하는 성능을 보입니다(예: OpenAICLIP에서 6.0% 향상). 강화된 CLIP은 다중모드 대형 언어 모델에 통합되어 더 나은 시각 중심 성능을 제공할 수 있습니다. 모든 모델과 코드는 공개되어 있습니다.
English
The synergy between generative and discriminative models receives growing
attention. While discriminative Contrastive Language-Image Pre-Training (CLIP)
excels in high-level semantics, it struggles with perceiving fine-grained
visual details. Generally, to enhance representations, generative models take
CLIP's visual features as conditions for reconstruction. However, the
underlying principle remains underexplored. In this work, we empirically found
that visually perfect generations are not always optimal for representation
enhancement. The essence lies in effectively extracting fine-grained knowledge
from generative models while mitigating irrelevant information. To explore
critical factors, we delve into three aspects: (1) Conditioning mechanisms: We
found that even a small number of local tokens can drastically reduce the
difficulty of reconstruction, leading to collapsed training. We thus conclude
that utilizing only global visual tokens as conditions is the most effective
strategy. (2) Denoising configurations: We observed that end-to-end training
introduces extraneous information. To address this, we propose a two-stage
training strategy to prioritize learning useful visual knowledge. Additionally,
we demonstrate that lightweight denoisers can yield remarkable improvements.
(3) Generation paradigms: We explore both continuous and discrete denoisers
with desirable outcomes, validating the versatility of our method. Through our
in-depth explorations, we have finally arrived at an effective method, namely
GenHancer, which consistently outperforms prior arts on the MMVP-VLM benchmark,
e.g., 6.0% on OpenAICLIP. The enhanced CLIP can be further plugged into
multimodal large language models for better vision-centric performance. All the
models and codes are made publicly available.Summary
AI-Generated Summary