GenHancer: Modelos Generativos Imperfeitos são Secretamente Poderosos Potencializadores Centrados em Visão
GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers
March 25, 2025
Autores: Shijie Ma, Yuying Ge, Teng Wang, Yuxin Guo, Yixiao Ge, Ying Shan
cs.AI
Resumo
A sinergia entre modelos generativos e discriminativos tem recebido crescente atenção. Enquanto o pré-treinamento discriminativo de Linguagem-Imagem Contrastiva (CLIP) se destaca na semântica de alto nível, ele enfrenta dificuldades em perceber detalhes visuais refinados. Geralmente, para aprimorar as representações, os modelos generativos utilizam as características visuais do CLIP como condições para reconstrução. No entanto, o princípio subjacente permanece pouco explorado. Neste trabalho, descobrimos empiricamente que gerações visualmente perfeitas nem sempre são ideais para o aprimoramento de representações. A essência reside em extrair efetivamente conhecimento refinado dos modelos generativos, mitigando informações irrelevantes. Para explorar fatores críticos, investigamos três aspectos: (1) Mecanismos de condicionamento: Descobrimos que mesmo um pequeno número de tokens locais pode reduzir drasticamente a dificuldade de reconstrução, levando ao colapso do treinamento. Concluímos, portanto, que utilizar apenas tokens visuais globais como condições é a estratégia mais eficaz. (2) Configurações de remoção de ruído: Observamos que o treinamento end-to-end introduz informações supérfluas. Para resolver isso, propomos uma estratégia de treinamento em duas etapas para priorizar o aprendizado de conhecimento visual útil. Além disso, demonstramos que desruidificadores leves podem gerar melhorias notáveis. (3) Paradigmas de geração: Exploramos tanto desruidificadores contínuos quanto discretos com resultados desejáveis, validando a versatilidade do nosso método. Por meio de nossas investigações detalhadas, chegamos finalmente a um método eficaz, denominado GenHancer, que supera consistentemente as abordagens anteriores no benchmark MMVP-VLM, por exemplo, 6,0% no OpenAICLIP. O CLIP aprimorado pode ser ainda integrado a modelos de linguagem multimodal de grande escala para melhor desempenho centrado em visão. Todos os modelos e códigos estão disponíveis publicamente.
English
The synergy between generative and discriminative models receives growing
attention. While discriminative Contrastive Language-Image Pre-Training (CLIP)
excels in high-level semantics, it struggles with perceiving fine-grained
visual details. Generally, to enhance representations, generative models take
CLIP's visual features as conditions for reconstruction. However, the
underlying principle remains underexplored. In this work, we empirically found
that visually perfect generations are not always optimal for representation
enhancement. The essence lies in effectively extracting fine-grained knowledge
from generative models while mitigating irrelevant information. To explore
critical factors, we delve into three aspects: (1) Conditioning mechanisms: We
found that even a small number of local tokens can drastically reduce the
difficulty of reconstruction, leading to collapsed training. We thus conclude
that utilizing only global visual tokens as conditions is the most effective
strategy. (2) Denoising configurations: We observed that end-to-end training
introduces extraneous information. To address this, we propose a two-stage
training strategy to prioritize learning useful visual knowledge. Additionally,
we demonstrate that lightweight denoisers can yield remarkable improvements.
(3) Generation paradigms: We explore both continuous and discrete denoisers
with desirable outcomes, validating the versatility of our method. Through our
in-depth explorations, we have finally arrived at an effective method, namely
GenHancer, which consistently outperforms prior arts on the MMVP-VLM benchmark,
e.g., 6.0% on OpenAICLIP. The enhanced CLIP can be further plugged into
multimodal large language models for better vision-centric performance. All the
models and codes are made publicly available.Summary
AI-Generated Summary