ITACLIP: Mejorando la Segmentación Semántica sin Entrenamiento con Mejoras en Imágenes, Texto y Arquitectura
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements
November 18, 2024
Autores: M. Arda Aydın, Efe Mert Çırpar, Elvin Abdinli, Gozde Unal, Yusuf H. Sahin
cs.AI
Resumen
Los avances recientes en los Modelos de Visión y Lenguaje Fundacionales (VLF) han transformado el paradigma de evaluación en tareas de visión por computadora. Estos modelos fundamentales, especialmente CLIP, han acelerado la investigación en tareas de visión por computadora de vocabulario abierto, incluida la Segmentación Semántica de Vocabulario Abierto (OVSS). Aunque los resultados iniciales son prometedores, las capacidades de predicción densa de los VLF aún requieren mejoras adicionales. En este estudio, mejoramos el rendimiento de segmentación semántica de CLIP mediante la introducción de nuevos módulos y modificaciones: 1) cambios arquitectónicos en la última capa de ViT y la incorporación de mapas de atención de las capas intermedias con la última capa, 2) Ingeniería de Imágenes: aplicando aumentos de datos para enriquecer las representaciones de imágenes de entrada, y 3) utilizando Modelos de Lenguaje Grandes (LLM) para generar definiciones y sinónimos para cada nombre de clase para aprovechar las capacidades de vocabulario abierto de CLIP. Nuestro método sin entrenamiento, ITACLIP, supera a los enfoques actuales de vanguardia en benchmarks de segmentación como COCO-Stuff, COCO-Object, Pascal Context y Pascal VOC. Nuestro código está disponible en https://github.com/m-arda-aydn/ITACLIP.
English
Recent advances in foundational Vision Language Models (VLMs) have reshaped
the evaluation paradigm in computer vision tasks. These foundational models,
especially CLIP, have accelerated research in open-vocabulary computer vision
tasks, including Open-Vocabulary Semantic Segmentation (OVSS). Although the
initial results are promising, the dense prediction capabilities of VLMs still
require further improvement. In this study, we enhance the semantic
segmentation performance of CLIP by introducing new modules and modifications:
1) architectural changes in the last layer of ViT and the incorporation of
attention maps from the middle layers with the last layer, 2) Image
Engineering: applying data augmentations to enrich input image representations,
and 3) using Large Language Models (LLMs) to generate definitions and synonyms
for each class name to leverage CLIP's open-vocabulary capabilities. Our
training-free method, ITACLIP, outperforms current state-of-the-art approaches
on segmentation benchmarks such as COCO-Stuff, COCO-Object, Pascal Context, and
Pascal VOC. Our code is available at https://github.com/m-arda-aydn/ITACLIP.