GenHancer : Les modèles génératifs imparfaits sont secrètement puissants Améliorateurs centrés sur la vision
GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers
March 25, 2025
Auteurs: Shijie Ma, Yuying Ge, Teng Wang, Yuxin Guo, Yixiao Ge, Ying Shan
cs.AI
Résumé
La synergie entre les modèles génératifs et discriminatifs suscite un intérêt croissant. Alors que le pré-entraînement contrastif langage-image (CLIP) discriminatif excelle dans la sémantique de haut niveau, il peine à percevoir les détails visuels fins. Généralement, pour améliorer les représentations, les modèles génératifs utilisent les caractéristiques visuelles de CLIP comme conditions pour la reconstruction. Cependant, le principe sous-jacent reste peu exploré. Dans ce travail, nous avons empiriquement constaté que des générations visuellement parfaites ne sont pas toujours optimales pour l'amélioration des représentations. L'essence réside dans l'extraction efficace de connaissances fines à partir des modèles génératifs tout en atténuant les informations non pertinentes. Pour explorer les facteurs critiques, nous nous penchons sur trois aspects : (1) Mécanismes de conditionnement : Nous avons constaté qu'un petit nombre de tokens locaux peut considérablement réduire la difficulté de reconstruction, entraînant un effondrement de l'entraînement. Nous concluons donc que l'utilisation uniquement des tokens visuels globaux comme conditions est la stratégie la plus efficace. (2) Configurations de débruitage : Nous avons observé que l'entraînement de bout en bout introduit des informations superflues. Pour y remédier, nous proposons une stratégie d'entraînement en deux étapes pour privilégier l'apprentissage de connaissances visuelles utiles. De plus, nous démontrons que des débruiteurs légers peuvent apporter des améliorations remarquables. (3) Paradigmes de génération : Nous explorons à la fois les débruiteurs continus et discrets avec des résultats prometteurs, validant la polyvalence de notre méthode. Grâce à nos explorations approfondies, nous avons finalement abouti à une méthode efficace, nommée GenHancer, qui surpasse systématiquement les approches précédentes sur le benchmark MMVP-VLM, par exemple, 6,0 % sur OpenAICLIP. Le CLIP amélioré peut être intégré dans des modèles de langage multimodaux de grande taille pour de meilleures performances centrées sur la vision. Tous les modèles et codes sont rendus publics.
English
The synergy between generative and discriminative models receives growing
attention. While discriminative Contrastive Language-Image Pre-Training (CLIP)
excels in high-level semantics, it struggles with perceiving fine-grained
visual details. Generally, to enhance representations, generative models take
CLIP's visual features as conditions for reconstruction. However, the
underlying principle remains underexplored. In this work, we empirically found
that visually perfect generations are not always optimal for representation
enhancement. The essence lies in effectively extracting fine-grained knowledge
from generative models while mitigating irrelevant information. To explore
critical factors, we delve into three aspects: (1) Conditioning mechanisms: We
found that even a small number of local tokens can drastically reduce the
difficulty of reconstruction, leading to collapsed training. We thus conclude
that utilizing only global visual tokens as conditions is the most effective
strategy. (2) Denoising configurations: We observed that end-to-end training
introduces extraneous information. To address this, we propose a two-stage
training strategy to prioritize learning useful visual knowledge. Additionally,
we demonstrate that lightweight denoisers can yield remarkable improvements.
(3) Generation paradigms: We explore both continuous and discrete denoisers
with desirable outcomes, validating the versatility of our method. Through our
in-depth explorations, we have finally arrived at an effective method, namely
GenHancer, which consistently outperforms prior arts on the MMVP-VLM benchmark,
e.g., 6.0% on OpenAICLIP. The enhanced CLIP can be further plugged into
multimodal large language models for better vision-centric performance. All the
models and codes are made publicly available.Summary
AI-Generated Summary