ITACLIP: Aumentando a Segmentação Semântica sem Treinamento com Aprimoramentos de Imagem, Texto e Arquitetura
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements
November 18, 2024
Autores: M. Arda Aydın, Efe Mert Çırpar, Elvin Abdinli, Gozde Unal, Yusuf H. Sahin
cs.AI
Resumo
Os avanços recentes em Modelos de Linguagem Visual (VLMs) fundamentais têm remodelado o paradigma de avaliação em tarefas de visão computacional. Esses modelos fundamentais, especialmente o CLIP, têm acelerado a pesquisa em tarefas de visão computacional de vocabulário aberto, incluindo a Segmentação Semântica de Vocabulário Aberto (OVSS). Embora os resultados iniciais sejam promissores, as capacidades de previsão densa dos VLMs ainda requerem melhorias adicionais. Neste estudo, aprimoramos o desempenho de segmentação semântica do CLIP introduzindo novos módulos e modificações: 1) mudanças arquiteturais na última camada do ViT e a incorporação de mapas de atenção das camadas intermediárias com a última camada, 2) Engenharia de Imagem: aplicando aumentos de dados para enriquecer as representações de imagem de entrada, e 3) utilizando Modelos de Linguagem Grandes (LLMs) para gerar definições e sinônimos para cada nome de classe para alavancar as capacidades de vocabulário aberto do CLIP. Nosso método de treinamento livre, ITACLIP, supera as abordagens atuais de ponta em benchmarks de segmentação como COCO-Stuff, COCO-Object, Pascal Context e Pascal VOC. Nosso código está disponível em https://github.com/m-arda-aydn/ITACLIP.
English
Recent advances in foundational Vision Language Models (VLMs) have reshaped
the evaluation paradigm in computer vision tasks. These foundational models,
especially CLIP, have accelerated research in open-vocabulary computer vision
tasks, including Open-Vocabulary Semantic Segmentation (OVSS). Although the
initial results are promising, the dense prediction capabilities of VLMs still
require further improvement. In this study, we enhance the semantic
segmentation performance of CLIP by introducing new modules and modifications:
1) architectural changes in the last layer of ViT and the incorporation of
attention maps from the middle layers with the last layer, 2) Image
Engineering: applying data augmentations to enrich input image representations,
and 3) using Large Language Models (LLMs) to generate definitions and synonyms
for each class name to leverage CLIP's open-vocabulary capabilities. Our
training-free method, ITACLIP, outperforms current state-of-the-art approaches
on segmentation benchmarks such as COCO-Stuff, COCO-Object, Pascal Context, and
Pascal VOC. Our code is available at https://github.com/m-arda-aydn/ITACLIP.Summary
AI-Generated Summary