GenHancer: Los modelos generativos imperfectos son secretamente potentes Potenciadores centrados en visión
GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers
March 25, 2025
Autores: Shijie Ma, Yuying Ge, Teng Wang, Yuxin Guo, Yixiao Ge, Ying Shan
cs.AI
Resumen
La sinergia entre los modelos generativos y discriminativos está recibiendo una atención creciente. Mientras que el entrenamiento previo de lenguaje e imagen contrastivo (CLIP) discriminativo sobresale en semántica de alto nivel, tiene dificultades para percibir detalles visuales de grano fino. Generalmente, para mejorar las representaciones, los modelos generativos toman las características visuales de CLIP como condiciones para la reconstrucción. Sin embargo, el principio subyacente sigue siendo poco explorado. En este trabajo, encontramos empíricamente que las generaciones visualmente perfectas no siempre son óptimas para la mejora de representaciones. La esencia radica en extraer efectivamente conocimiento de grano fino de los modelos generativos mientras se mitiga la información irrelevante. Para explorar factores críticos, profundizamos en tres aspectos: (1) Mecanismos de condicionamiento: Descubrimos que incluso un pequeño número de tokens locales puede reducir drásticamente la dificultad de la reconstrucción, llevando a un colapso en el entrenamiento. Por lo tanto, concluimos que utilizar solo tokens visuales globales como condiciones es la estrategia más efectiva. (2) Configuraciones de eliminación de ruido: Observamos que el entrenamiento de extremo a extremo introduce información extraña. Para abordar esto, proponemos una estrategia de entrenamiento en dos etapas para priorizar el aprendizaje de conocimiento visual útil. Además, demostramos que los eliminadores de ruido ligeros pueden producir mejoras notables. (3) Paradigmas de generación: Exploramos tanto eliminadores de ruido continuos como discretos con resultados deseables, validando la versatilidad de nuestro método. A través de nuestras exploraciones en profundidad, finalmente hemos llegado a un método efectivo, denominado GenHancer, que supera consistentemente a las técnicas anteriores en el benchmark MMVP-VLM, por ejemplo, un 6.0% en OpenAICLIP. El CLIP mejorado puede integrarse en modelos de lenguaje multimodal de gran escala para un mejor rendimiento centrado en la visión. Todos los modelos y códigos están disponibles públicamente.
English
The synergy between generative and discriminative models receives growing
attention. While discriminative Contrastive Language-Image Pre-Training (CLIP)
excels in high-level semantics, it struggles with perceiving fine-grained
visual details. Generally, to enhance representations, generative models take
CLIP's visual features as conditions for reconstruction. However, the
underlying principle remains underexplored. In this work, we empirically found
that visually perfect generations are not always optimal for representation
enhancement. The essence lies in effectively extracting fine-grained knowledge
from generative models while mitigating irrelevant information. To explore
critical factors, we delve into three aspects: (1) Conditioning mechanisms: We
found that even a small number of local tokens can drastically reduce the
difficulty of reconstruction, leading to collapsed training. We thus conclude
that utilizing only global visual tokens as conditions is the most effective
strategy. (2) Denoising configurations: We observed that end-to-end training
introduces extraneous information. To address this, we propose a two-stage
training strategy to prioritize learning useful visual knowledge. Additionally,
we demonstrate that lightweight denoisers can yield remarkable improvements.
(3) Generation paradigms: We explore both continuous and discrete denoisers
with desirable outcomes, validating the versatility of our method. Through our
in-depth explorations, we have finally arrived at an effective method, namely
GenHancer, which consistently outperforms prior arts on the MMVP-VLM benchmark,
e.g., 6.0% on OpenAICLIP. The enhanced CLIP can be further plugged into
multimodal large language models for better vision-centric performance. All the
models and codes are made publicly available.Summary
AI-Generated Summary