GenHancer: I modelli generativi imperfetti sono segretamente potenti Potenziatori centrati sulla visione
GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers
March 25, 2025
Autori: Shijie Ma, Yuying Ge, Teng Wang, Yuxin Guo, Yixiao Ge, Ying Shan
cs.AI
Abstract
La sinergia tra modelli generativi e discriminativi sta ricevendo crescente attenzione. Mentre il Contrastive Language-Image Pre-Training (CLIP) discriminativo eccelle nella semantica di alto livello, fatica a percepire dettagli visivi di livello fine. In generale, per migliorare le rappresentazioni, i modelli generativi utilizzano le caratteristiche visive di CLIP come condizioni per la ricostruzione. Tuttavia, il principio sottostante rimane poco esplorato. In questo lavoro, abbiamo empiricamente scoperto che generazioni visivamente perfette non sono sempre ottimali per il miglioramento delle rappresentazioni. L'essenza risiede nell'estrarre efficacemente conoscenze di livello fine dai modelli generativi mitigando le informazioni irrilevanti. Per esplorare i fattori critici, ci siamo concentrati su tre aspetti: (1) Meccanismi di condizionamento: abbiamo scoperto che anche un piccolo numero di token locali può ridurre drasticamente la difficoltà della ricostruzione, portando a un collasso dell'addestramento. Abbiamo quindi concluso che utilizzare solo token visivi globali come condizioni è la strategia più efficace. (2) Configurazioni di denoising: abbiamo osservato che l'addestramento end-to-end introduce informazioni estranee. Per affrontare questo problema, proponiamo una strategia di addestramento in due fasi per dare priorità all'apprendimento di conoscenze visive utili. Inoltre, dimostriamo che denoiser leggeri possono portare a miglioramenti significativi. (3) Paradigmi di generazione: esploriamo sia denoiser continui che discreti con risultati desiderabili, validando la versatilità del nostro metodo. Attraverso le nostre esplorazioni approfondite, siamo finalmente arrivati a un metodo efficace, denominato GenHancer, che supera costantemente le tecniche precedenti sul benchmark MMVP-VLM, ad esempio, del 6.0% su OpenAICLIP. Il CLIP migliorato può essere ulteriormente integrato in modelli linguistici multimodali di grandi dimensioni per ottenere prestazioni migliori centrate sulla visione. Tutti i modelli e i codici sono resi pubblicamente disponibili.
English
The synergy between generative and discriminative models receives growing
attention. While discriminative Contrastive Language-Image Pre-Training (CLIP)
excels in high-level semantics, it struggles with perceiving fine-grained
visual details. Generally, to enhance representations, generative models take
CLIP's visual features as conditions for reconstruction. However, the
underlying principle remains underexplored. In this work, we empirically found
that visually perfect generations are not always optimal for representation
enhancement. The essence lies in effectively extracting fine-grained knowledge
from generative models while mitigating irrelevant information. To explore
critical factors, we delve into three aspects: (1) Conditioning mechanisms: We
found that even a small number of local tokens can drastically reduce the
difficulty of reconstruction, leading to collapsed training. We thus conclude
that utilizing only global visual tokens as conditions is the most effective
strategy. (2) Denoising configurations: We observed that end-to-end training
introduces extraneous information. To address this, we propose a two-stage
training strategy to prioritize learning useful visual knowledge. Additionally,
we demonstrate that lightweight denoisers can yield remarkable improvements.
(3) Generation paradigms: We explore both continuous and discrete denoisers
with desirable outcomes, validating the versatility of our method. Through our
in-depth explorations, we have finally arrived at an effective method, namely
GenHancer, which consistently outperforms prior arts on the MMVP-VLM benchmark,
e.g., 6.0% on OpenAICLIP. The enhanced CLIP can be further plugged into
multimodal large language models for better vision-centric performance. All the
models and codes are made publicly available.Summary
AI-Generated Summary