Mamba como puente: donde los modelos fundacionales de visión se encuentran con los modelos de lenguaje visual para la segmentación semántica generalizada a dominios
Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation
April 4, 2025
Autores: Xin Zhang, Robby T. Tan
cs.AI
Resumen
Los Modelos de Base Visual (VFMs) y los Modelos Visión-Lenguaje (VLMs) han ganado relevancia en la Segmentación Semántica Generalizada de Dominios (DGSS) debido a sus fuertes capacidades de generalización. Sin embargo, los métodos existentes de DGSS suelen depender exclusivamente de VFMs o VLMs, pasando por alto sus fortalezas complementarias. Los VFMs (por ejemplo, DINOv2) sobresalen en capturar características de gran detalle, mientras que los VLMs (por ejemplo, CLIP) ofrecen una alineación robusta con el texto pero tienen dificultades con la granularidad gruesa. A pesar de sus fortalezas complementarias, integrar efectivamente VFMs y VLMs con mecanismos de atención es un desafío, ya que el aumento de tokens de parches complica el modelado de secuencias largas. Para abordar esto, proponemos MFuser, un novedoso marco de fusión basado en Mamba que combina eficientemente las fortalezas de VFMs y VLMs manteniendo una escalabilidad lineal en la longitud de la secuencia. MFuser consta de dos componentes clave: MVFuser, que actúa como un co-adaptador para ajustar conjuntamente los dos modelos capturando tanto dinámicas secuenciales como espaciales; y MTEnhancer, un módulo híbrido de atención-Mamba que refina los embeddings de texto incorporando prioridades de imagen. Nuestro enfoque logra una localidad precisa de características y una fuerte alineación de texto sin incurrir en un sobrecosto computacional significativo. Experimentos extensivos demuestran que MFuser supera significativamente a los métodos de DGSS más avanzados, alcanzando 68.20 mIoU en benchmarks de sintético-a-real y 71.87 mIoU en real-a-real. El código está disponible en https://github.com/devinxzhang/MFuser.
English
Vision Foundation Models (VFMs) and Vision-Language Models (VLMs) have gained
traction in Domain Generalized Semantic Segmentation (DGSS) due to their strong
generalization capabilities. However, existing DGSS methods often rely
exclusively on either VFMs or VLMs, overlooking their complementary strengths.
VFMs (e.g., DINOv2) excel at capturing fine-grained features, while VLMs (e.g.,
CLIP) provide robust text alignment but struggle with coarse granularity.
Despite their complementary strengths, effectively integrating VFMs and VLMs
with attention mechanisms is challenging, as the increased patch tokens
complicate long-sequence modeling. To address this, we propose MFuser, a novel
Mamba-based fusion framework that efficiently combines the strengths of VFMs
and VLMs while maintaining linear scalability in sequence length. MFuser
consists of two key components: MVFuser, which acts as a co-adapter to jointly
fine-tune the two models by capturing both sequential and spatial dynamics; and
MTEnhancer, a hybrid attention-Mamba module that refines text embeddings by
incorporating image priors. Our approach achieves precise feature locality and
strong text alignment without incurring significant computational overhead.
Extensive experiments demonstrate that MFuser significantly outperforms
state-of-the-art DGSS methods, achieving 68.20 mIoU on synthetic-to-real and
71.87 mIoU on real-to-real benchmarks. The code is available at
https://github.com/devinxzhang/MFuser.Summary
AI-Generated Summary