ITACLIP: Увеличение эффективности обучения без обучающего набора данных с помощью улучшений изображения, текста и архитектуры.
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements
November 18, 2024
Авторы: M. Arda Aydın, Efe Mert Çırpar, Elvin Abdinli, Gozde Unal, Yusuf H. Sahin
cs.AI
Аннотация
Недавние достижения в основных моделях видеоязыковых моделей (VLM) переосмыслили парадигму оценки в задачах компьютерного зрения. Эти фундаментальные модели, особенно CLIP, ускорили исследования в задачах компьютерного зрения с открытым словарем, включая семантическую сегментацию с открытым словарем (OVSS). Хотя первоначальные результаты обнадеживающие, плотные возможности прогнозирования VLM все еще требуют дальнейшего улучшения. В данном исследовании мы улучшаем производительность семантической сегментации CLIP путем внедрения новых модулей и модификаций: 1) архитектурные изменения в последнем слое ViT и интеграция карт внимания из средних слоев с последним слоем, 2) Инженерия изображений: применение аугментаций данных для обогащения представлений входного изображения, и 3) использование больших языковых моделей (LLM) для генерации определений и синонимов для каждого названия класса для использования возможностей CLIP с открытым словарем. Наш метод обучения без обучения, ITACLIP, превосходит текущие передовые подходы на бенчмарках сегментации, таких как COCO-Stuff, COCO-Object, Pascal Context и Pascal VOC. Наш код доступен по адресу https://github.com/m-arda-aydn/ITACLIP.
English
Recent advances in foundational Vision Language Models (VLMs) have reshaped
the evaluation paradigm in computer vision tasks. These foundational models,
especially CLIP, have accelerated research in open-vocabulary computer vision
tasks, including Open-Vocabulary Semantic Segmentation (OVSS). Although the
initial results are promising, the dense prediction capabilities of VLMs still
require further improvement. In this study, we enhance the semantic
segmentation performance of CLIP by introducing new modules and modifications:
1) architectural changes in the last layer of ViT and the incorporation of
attention maps from the middle layers with the last layer, 2) Image
Engineering: applying data augmentations to enrich input image representations,
and 3) using Large Language Models (LLMs) to generate definitions and synonyms
for each class name to leverage CLIP's open-vocabulary capabilities. Our
training-free method, ITACLIP, outperforms current state-of-the-art approaches
on segmentation benchmarks such as COCO-Stuff, COCO-Object, Pascal Context, and
Pascal VOC. Our code is available at https://github.com/m-arda-aydn/ITACLIP.Summary
AI-Generated Summary