ChatPaper.aiChatPaper

전이 가능하고 원칙적인 효율성을 갖춘 개방형 어휘 분할

Transferable and Principled Efficiency for Open-Vocabulary Segmentation

April 11, 2024
저자: Jingxuan Xu, Wuyang Chen, Yao Zhao, Yunchao Wei
cs.AI

초록

사전 학습된 기반 시각-언어 모델들의 최근 성공으로 인해 개방형 어휘 분할(Open-Vocabulary Segmentation, OVS)이 가능해졌습니다. 이 접근법은 유망한 성능을 보이지만, 두 가지 주요 과제로 인해 상당한 계산 부담을 초래합니다: 1) 백본 모델의 큰 크기; 2) 미세 조정(fine-tuning) 과정에서의 높은 비용. 이러한 과제들은 이 OVS 전략이 실제 시나리오에서 널리 적용되고 경제적으로 실현 가능한 것을 방해합니다. 전통적인 방법들, 예를 들어 모델 압축과 효율적인 미세 조정은 이러한 과제를 해결할 수 있지만, 이들은 종종 경험적 방법에 의존합니다. 이는 그들의 해결책이 쉽게 전이될 수 없고, 다른 모델들에 대해 재학습이 필요하며, 이는 비용을 수반한다는 것을 의미합니다. 효율적인 OVS의 맥락에서, 우리는 더 작은 모델을 활용하여 더 낮은 학습 비용을 발생시키면서도, 대형 시각-언어 기반 모델을 기반으로 한 기존 OVS 연구들과 비교할 만하거나 더 나은 성능을 달성하는 것을 목표로 합니다. 핵심 전략은 우리의 효율성을 원칙적으로 만들어, 추가적인 사용자 정의 없이도 하나의 OVS 프레임워크에서 다른 프레임워크로 원활하게 전이 가능하도록 하는 것입니다. 다양한 OVS 벤치마크에 대한 포괄적인 실험을 통해, 우리는 이전 연구들에 비해 분할 정확도와 계산 비용 간의 우수한 균형을 입증했습니다. 우리의 코드는 https://github.com/Xujxyang/OpenTrans에서 확인할 수 있습니다.
English
Recent success of pre-trained foundation vision-language models makes Open-Vocabulary Segmentation (OVS) possible. Despite the promising performance, this approach introduces heavy computational overheads for two challenges: 1) large model sizes of the backbone; 2) expensive costs during the fine-tuning. These challenges hinder this OVS strategy from being widely applicable and affordable in real-world scenarios. Although traditional methods such as model compression and efficient fine-tuning can address these challenges, they often rely on heuristics. This means that their solutions cannot be easily transferred and necessitate re-training on different models, which comes at a cost. In the context of efficient OVS, we target achieving performance that is comparable to or even better than prior OVS works based on large vision-language foundation models, by utilizing smaller models that incur lower training costs. The core strategy is to make our efficiency principled and thus seamlessly transferable from one OVS framework to others without further customization. Comprehensive experiments on diverse OVS benchmarks demonstrate our superior trade-off between segmentation accuracy and computation costs over previous works. Our code is available on https://github.com/Xujxyang/OpenTrans

Summary

AI-Generated Summary

PDF121December 15, 2024