Mamba를 가교로: 도메인 일반화된 시맨틱 세그멘테이션을 위한 비전 파운데이션 모델과 비전 언어 모델의 만남
Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation
April 4, 2025
저자: Xin Zhang, Robby T. Tan
cs.AI
초록
비전 파운데이션 모델(VFMs)과 비전-언어 모델(VLMs)은 강력한 일반화 능력으로 인해 도메인 일반화 의미 분할(DGSS) 분야에서 주목받고 있습니다. 그러나 기존의 DGSS 방법들은 주로 VFMs나 VLMs 중 하나에만 의존하며, 이들의 상호 보완적 강점을 간과하는 경향이 있습니다. VFMs(예: DINOv2)는 세밀한 특징을 포착하는 데 뛰어나지만, VLMs(예: CLIP)은 텍스트 정렬에 강점을 보이면서도 거친 세분성에는 어려움을 겪습니다. 이러한 상호 보완적 강점에도 불구하고, VFMs와 VLMs를 어텐션 메커니즘과 효과적으로 통합하는 것은 패치 토큰의 증가로 인해 장기 시퀀스 모델링이 복잡해지는 문제로 인해 어려운 과제입니다. 이를 해결하기 위해, 우리는 VFMs와 VLMs의 강점을 효율적으로 결합하면서 시퀀스 길이에 대한 선형 확장성을 유지하는 새로운 Mamba 기반 융합 프레임워크인 MFuser를 제안합니다. MFuser는 두 가지 주요 구성 요소로 이루어져 있습니다: MVFuser는 순차적 및 공간적 동역학을 포착하여 두 모델을 공동으로 미세 조정하는 코-어댑터 역할을 하며, MTEnhancer는 이미지 사전 정보를 통합하여 텍스트 임베딩을 개선하는 하이브리드 어텐션-Mamba 모듈입니다. 우리의 접근 방식은 상당한 계산 오버헤드 없이 정확한 특징 지역성과 강력한 텍스트 정렬을 달성합니다. 광범위한 실험을 통해 MFuser가 최신 DGSS 방법들을 크게 능가하며, 합성-대-실제 벤치마크에서 68.20 mIoU, 실제-대-실제 벤치마크에서 71.87 mIoU를 달성함을 입증했습니다. 코드는 https://github.com/devinxzhang/MFuser에서 확인할 수 있습니다.
English
Vision Foundation Models (VFMs) and Vision-Language Models (VLMs) have gained
traction in Domain Generalized Semantic Segmentation (DGSS) due to their strong
generalization capabilities. However, existing DGSS methods often rely
exclusively on either VFMs or VLMs, overlooking their complementary strengths.
VFMs (e.g., DINOv2) excel at capturing fine-grained features, while VLMs (e.g.,
CLIP) provide robust text alignment but struggle with coarse granularity.
Despite their complementary strengths, effectively integrating VFMs and VLMs
with attention mechanisms is challenging, as the increased patch tokens
complicate long-sequence modeling. To address this, we propose MFuser, a novel
Mamba-based fusion framework that efficiently combines the strengths of VFMs
and VLMs while maintaining linear scalability in sequence length. MFuser
consists of two key components: MVFuser, which acts as a co-adapter to jointly
fine-tune the two models by capturing both sequential and spatial dynamics; and
MTEnhancer, a hybrid attention-Mamba module that refines text embeddings by
incorporating image priors. Our approach achieves precise feature locality and
strong text alignment without incurring significant computational overhead.
Extensive experiments demonstrate that MFuser significantly outperforms
state-of-the-art DGSS methods, achieving 68.20 mIoU on synthetic-to-real and
71.87 mIoU on real-to-real benchmarks. The code is available at
https://github.com/devinxzhang/MFuser.Summary
AI-Generated Summary