GenHancer: Несовершенные генеративные модели — скрытые усилители Усилители с фокусом на зрении
GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers
March 25, 2025
Авторы: Shijie Ma, Yuying Ge, Teng Wang, Yuxin Guo, Yixiao Ge, Ying Shan
cs.AI
Аннотация
Синергия между генеративными и дискриминирующими моделями привлекает всё больше внимания. В то время как дискриминирующая модель Contrastive Language-Image Pre-Training (CLIP) демонстрирует превосходство в работе с высокоуровневой семантикой, она испытывает трудности с восприятием детализированных визуальных особенностей. Обычно для улучшения представлений генеративные модели используют визуальные признаки CLIP в качестве условий для реконструкции. Однако базовые принципы этого подхода остаются недостаточно изученными. В данной работе мы эмпирически обнаружили, что визуально идеальные генерации не всегда оптимальны для улучшения представлений. Ключевой аспект заключается в эффективном извлечении детализированных знаний из генеративных моделей при минимизации нерелевантной информации. Для изучения критических факторов мы исследуем три аспекта: (1) Механизмы кондиционирования: Мы выяснили, что даже небольшое количество локальных токенов может значительно снизить сложность реконструкции, приводя к коллапсу обучения. Таким образом, мы пришли к выводу, что использование только глобальных визуальных токенов в качестве условий является наиболее эффективной стратегией. (2) Конфигурации шумоподавления: Мы заметили, что сквозное обучение вносит избыточную информацию. Для решения этой проблемы мы предлагаем двухэтапную стратегию обучения, которая фокусируется на изучении полезных визуальных знаний. Кроме того, мы демонстрируем, что легковесные модели шумоподавления могут привести к значительным улучшениям. (3) Парадигмы генерации: Мы исследуем как непрерывные, так и дискретные модели шумоподавления с положительными результатами, подтверждая универсальность нашего метода. Благодаря глубокому исследованию мы разработали эффективный метод, названный GenHancer, который стабильно превосходит предыдущие подходы на бенчмарке MMVP-VLM, например, на 6,0% для OpenAICLIP. Улучшенная модель CLIP может быть интегрирована в мультимодальные крупные языковые модели для повышения производительности в задачах, ориентированных на визуальные данные. Все модели и код доступны публично.
English
The synergy between generative and discriminative models receives growing
attention. While discriminative Contrastive Language-Image Pre-Training (CLIP)
excels in high-level semantics, it struggles with perceiving fine-grained
visual details. Generally, to enhance representations, generative models take
CLIP's visual features as conditions for reconstruction. However, the
underlying principle remains underexplored. In this work, we empirically found
that visually perfect generations are not always optimal for representation
enhancement. The essence lies in effectively extracting fine-grained knowledge
from generative models while mitigating irrelevant information. To explore
critical factors, we delve into three aspects: (1) Conditioning mechanisms: We
found that even a small number of local tokens can drastically reduce the
difficulty of reconstruction, leading to collapsed training. We thus conclude
that utilizing only global visual tokens as conditions is the most effective
strategy. (2) Denoising configurations: We observed that end-to-end training
introduces extraneous information. To address this, we propose a two-stage
training strategy to prioritize learning useful visual knowledge. Additionally,
we demonstrate that lightweight denoisers can yield remarkable improvements.
(3) Generation paradigms: We explore both continuous and discrete denoisers
with desirable outcomes, validating the versatility of our method. Through our
in-depth explorations, we have finally arrived at an effective method, namely
GenHancer, which consistently outperforms prior arts on the MMVP-VLM benchmark,
e.g., 6.0% on OpenAICLIP. The enhanced CLIP can be further plugged into
multimodal large language models for better vision-centric performance. All the
models and codes are made publicly available.Summary
AI-Generated Summary