GenHancer: Onvolmaakte generatieve modellen zijn stiekem krachtige visiegerichte versterkers
GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers
March 25, 2025
Auteurs: Shijie Ma, Yuying Ge, Teng Wang, Yuxin Guo, Yixiao Ge, Ying Shan
cs.AI
Samenvatting
De synergie tussen generatieve en discriminerende modellen krijgt steeds meer aandacht. Hoewel discriminerende Contrastive Language-Image Pre-Training (CLIP) uitblinkt in hoogwaardige semantiek, heeft het moeite met het waarnemen van fijnmazige visuele details. Over het algemeen nemen generatieve modellen de visuele kenmerken van CLIP als voorwaarden voor reconstructie om representaties te verbeteren. Het onderliggende principe blijft echter onderbelicht. In dit werk hebben we empirisch vastgesteld dat visueel perfecte generaties niet altijd optimaal zijn voor representatieverbetering. De essentie ligt in het effectief extraheren van fijnmazige kennis uit generatieve modellen, terwijl irrelevante informatie wordt geminimaliseerd. Om kritische factoren te onderzoeken, verdiepen we ons in drie aspecten: (1) Conditioneringsmechanismen: We ontdekten dat zelfs een klein aantal lokale tokens de moeilijkheidsgraad van reconstructie drastisch kan verminderen, wat leidt tot instortende training. We concluderen daarom dat het gebruik van alleen globale visuele tokens als voorwaarden de meest effectieve strategie is. (2) Denoising-configuraties: We merkten op dat end-to-end training overbodige informatie introduceert. Om dit aan te pakken, stellen we een tweefasige trainingsstrategie voor om het leren van nuttige visuele kennis te prioriteren. Daarnaast tonen we aan dat lichtgewicht denoisers opmerkelijke verbeteringen kunnen opleveren. (3) Generatieparadigma's: We onderzoeken zowel continue als discrete denoisers met gewenste resultaten, wat de veelzijdigheid van onze methode valideert. Door onze diepgaande verkenningen zijn we uiteindelijk tot een effectieve methode gekomen, genaamd GenHancer, die consistent beter presteert dan eerdere methoden op de MMVP-VLM-benchmark, bijvoorbeeld 6,0% op OpenAICLIP. De verbeterde CLIP kan verder worden geïntegreerd in multimodale grote taalmodellen voor betere visiegerichte prestaties. Alle modellen en codes zijn openbaar beschikbaar gemaakt.
English
The synergy between generative and discriminative models receives growing
attention. While discriminative Contrastive Language-Image Pre-Training (CLIP)
excels in high-level semantics, it struggles with perceiving fine-grained
visual details. Generally, to enhance representations, generative models take
CLIP's visual features as conditions for reconstruction. However, the
underlying principle remains underexplored. In this work, we empirically found
that visually perfect generations are not always optimal for representation
enhancement. The essence lies in effectively extracting fine-grained knowledge
from generative models while mitigating irrelevant information. To explore
critical factors, we delve into three aspects: (1) Conditioning mechanisms: We
found that even a small number of local tokens can drastically reduce the
difficulty of reconstruction, leading to collapsed training. We thus conclude
that utilizing only global visual tokens as conditions is the most effective
strategy. (2) Denoising configurations: We observed that end-to-end training
introduces extraneous information. To address this, we propose a two-stage
training strategy to prioritize learning useful visual knowledge. Additionally,
we demonstrate that lightweight denoisers can yield remarkable improvements.
(3) Generation paradigms: We explore both continuous and discrete denoisers
with desirable outcomes, validating the versatility of our method. Through our
in-depth explorations, we have finally arrived at an effective method, namely
GenHancer, which consistently outperforms prior arts on the MMVP-VLM benchmark,
e.g., 6.0% on OpenAICLIP. The enhanced CLIP can be further plugged into
multimodal large language models for better vision-centric performance. All the
models and codes are made publicly available.Summary
AI-Generated Summary