ChatPaper.aiChatPaper

GenHancer: Onvolmaakte generatieve modellen zijn stiekem krachtige visiegerichte versterkers

GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers

March 25, 2025
Auteurs: Shijie Ma, Yuying Ge, Teng Wang, Yuxin Guo, Yixiao Ge, Ying Shan
cs.AI

Samenvatting

De synergie tussen generatieve en discriminerende modellen krijgt steeds meer aandacht. Hoewel discriminerende Contrastive Language-Image Pre-Training (CLIP) uitblinkt in hoogwaardige semantiek, heeft het moeite met het waarnemen van fijnmazige visuele details. Over het algemeen nemen generatieve modellen de visuele kenmerken van CLIP als voorwaarden voor reconstructie om representaties te verbeteren. Het onderliggende principe blijft echter onderbelicht. In dit werk hebben we empirisch vastgesteld dat visueel perfecte generaties niet altijd optimaal zijn voor representatieverbetering. De essentie ligt in het effectief extraheren van fijnmazige kennis uit generatieve modellen, terwijl irrelevante informatie wordt geminimaliseerd. Om kritische factoren te onderzoeken, verdiepen we ons in drie aspecten: (1) Conditioneringsmechanismen: We ontdekten dat zelfs een klein aantal lokale tokens de moeilijkheidsgraad van reconstructie drastisch kan verminderen, wat leidt tot instortende training. We concluderen daarom dat het gebruik van alleen globale visuele tokens als voorwaarden de meest effectieve strategie is. (2) Denoising-configuraties: We merkten op dat end-to-end training overbodige informatie introduceert. Om dit aan te pakken, stellen we een tweefasige trainingsstrategie voor om het leren van nuttige visuele kennis te prioriteren. Daarnaast tonen we aan dat lichtgewicht denoisers opmerkelijke verbeteringen kunnen opleveren. (3) Generatieparadigma's: We onderzoeken zowel continue als discrete denoisers met gewenste resultaten, wat de veelzijdigheid van onze methode valideert. Door onze diepgaande verkenningen zijn we uiteindelijk tot een effectieve methode gekomen, genaamd GenHancer, die consistent beter presteert dan eerdere methoden op de MMVP-VLM-benchmark, bijvoorbeeld 6,0% op OpenAICLIP. De verbeterde CLIP kan verder worden geïntegreerd in multimodale grote taalmodellen voor betere visiegerichte prestaties. Alle modellen en codes zijn openbaar beschikbaar gemaakt.
English
The synergy between generative and discriminative models receives growing attention. While discriminative Contrastive Language-Image Pre-Training (CLIP) excels in high-level semantics, it struggles with perceiving fine-grained visual details. Generally, to enhance representations, generative models take CLIP's visual features as conditions for reconstruction. However, the underlying principle remains underexplored. In this work, we empirically found that visually perfect generations are not always optimal for representation enhancement. The essence lies in effectively extracting fine-grained knowledge from generative models while mitigating irrelevant information. To explore critical factors, we delve into three aspects: (1) Conditioning mechanisms: We found that even a small number of local tokens can drastically reduce the difficulty of reconstruction, leading to collapsed training. We thus conclude that utilizing only global visual tokens as conditions is the most effective strategy. (2) Denoising configurations: We observed that end-to-end training introduces extraneous information. To address this, we propose a two-stage training strategy to prioritize learning useful visual knowledge. Additionally, we demonstrate that lightweight denoisers can yield remarkable improvements. (3) Generation paradigms: We explore both continuous and discrete denoisers with desirable outcomes, validating the versatility of our method. Through our in-depth explorations, we have finally arrived at an effective method, namely GenHancer, which consistently outperforms prior arts on the MMVP-VLM benchmark, e.g., 6.0% on OpenAICLIP. The enhanced CLIP can be further plugged into multimodal large language models for better vision-centric performance. All the models and codes are made publicly available.

Summary

AI-Generated Summary

PDF162March 27, 2025