Сохранение мультимодальных возможностей предварительно обученных VLM для улучшения композициональности видовой и лингвистической информации.
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality
October 7, 2024
Авторы: Youngtaek Oh, Jae Won Cho, Dong-Jin Kim, In So Kweon, Junmo Kim
cs.AI
Аннотация
В данной статье мы предлагаем новый метод для улучшения композиционного понимания в предварительно обученных моделях зрения и языка (VLMs) без ущерба производительности в многомодальных задачах с нулевым обучением. Традиционные подходы к донастройке часто улучшают композиционное мышление за счет ухудшения многомодальных возможностей, в основном из-за использования глобальной жесткой отрицательной (HN) потери, которая контрастирует глобальные представления изображений и текстов. Эта глобальная HN потеря толкает HN тексты, которые сильно похожи на оригинальные, повреждая многомодальные представления модели. Чтобы преодолеть это ограничение, мы предлагаем Fine-grained Selective Calibrated CLIP (FSC-CLIP), который интегрирует локальную жесткую отрицательную потерю и селективную откалиброванную регуляризацию. Эти инновации предоставляют детализированное отрицательное руководство, сохраняя при этом представительную целостность модели. Наши обширные оценки по различным показателям как для композиционных, так и для многомодальных задач показывают, что FSC-CLIP не только достигает композиционности на уровне передовых моделей, но также сохраняет сильные многомодальные возможности. Код доступен по ссылке: https://github.com/ytaek-oh/fsc-clip.
English
In this paper, we propose a new method to enhance compositional understanding
in pre-trained vision and language models (VLMs) without sacrificing
performance in zero-shot multi-modal tasks. Traditional fine-tuning approaches
often improve compositional reasoning at the cost of degrading multi-modal
capabilities, primarily due to the use of global hard negative (HN) loss, which
contrasts global representations of images and texts. This global HN loss
pushes HN texts that are highly similar to the original ones, damaging the
model's multi-modal representations. To overcome this limitation, we propose
Fine-grained Selective Calibrated CLIP (FSC-CLIP), which integrates local hard
negative loss and selective calibrated regularization. These innovations
provide fine-grained negative supervision while preserving the model's
representational integrity. Our extensive evaluations across diverse benchmarks
for both compositionality and multi-modal tasks show that FSC-CLIP not only
achieves compositionality on par with state-of-the-art models but also retains
strong multi-modal capabilities. Code is available at:
https://github.com/ytaek-oh/fsc-clip.Summary
AI-Generated Summary