Eficiencia Transferible y Fundamentada para la Segmentación de Vocabulario Abierto
Transferable and Principled Efficiency for Open-Vocabulary Segmentation
April 11, 2024
Autores: Jingxuan Xu, Wuyang Chen, Yao Zhao, Yunchao Wei
cs.AI
Resumen
El reciente éxito de los modelos fundamentales preentrenados de visión y lenguaje ha hecho posible la Segmentación de Vocabulario Abierto (OVS, por sus siglas en inglés). A pesar del rendimiento prometedor, este enfoque introduce una gran sobrecarga computacional debido a dos desafíos: 1) el gran tamaño de los modelos base; 2) los costos elevados durante el ajuste fino. Estos desafíos dificultan que esta estrategia de OVS sea ampliamente aplicable y asequible en escenarios del mundo real. Aunque métodos tradicionales como la compresión de modelos y el ajuste fino eficiente pueden abordar estos desafíos, a menudo dependen de heurísticas. Esto significa que sus soluciones no pueden transferirse fácilmente y requieren un reentrenamiento en diferentes modelos, lo cual implica un costo. En el contexto de una OVS eficiente, nuestro objetivo es lograr un rendimiento comparable o incluso superior al de trabajos previos de OVS basados en grandes modelos fundamentales de visión y lenguaje, utilizando modelos más pequeños que incurren en costos de entrenamiento más bajos. La estrategia central es hacer que nuestra eficiencia sea fundamentada y, por lo tanto, transferible sin problemas de un marco de OVS a otros sin necesidad de personalización adicional. Experimentos exhaustivos en diversos puntos de referencia de OVS demuestran nuestra superior relación entre la precisión de segmentación y los costos computacionales en comparación con trabajos anteriores. Nuestro código está disponible en https://github.com/Xujxyang/OpenTrans.
English
Recent success of pre-trained foundation vision-language models makes
Open-Vocabulary Segmentation (OVS) possible. Despite the promising performance,
this approach introduces heavy computational overheads for two challenges: 1)
large model sizes of the backbone; 2) expensive costs during the fine-tuning.
These challenges hinder this OVS strategy from being widely applicable and
affordable in real-world scenarios. Although traditional methods such as model
compression and efficient fine-tuning can address these challenges, they often
rely on heuristics. This means that their solutions cannot be easily
transferred and necessitate re-training on different models, which comes at a
cost. In the context of efficient OVS, we target achieving performance that is
comparable to or even better than prior OVS works based on large
vision-language foundation models, by utilizing smaller models that incur lower
training costs. The core strategy is to make our efficiency principled and thus
seamlessly transferable from one OVS framework to others without further
customization. Comprehensive experiments on diverse OVS benchmarks demonstrate
our superior trade-off between segmentation accuracy and computation costs over
previous works. Our code is available on https://github.com/Xujxyang/OpenTransSummary
AI-Generated Summary