ChatPaper.aiChatPaper

Mamba como puente: donde los modelos fundacionales de visión se encuentran con los modelos de lenguaje visual para la segmentación semántica generalizada a dominios

Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation

April 4, 2025
Autores: Xin Zhang, Robby T. Tan
cs.AI

Resumen

Los Modelos de Base Visual (VFMs) y los Modelos Visión-Lenguaje (VLMs) han ganado relevancia en la Segmentación Semántica Generalizada de Dominios (DGSS) debido a sus fuertes capacidades de generalización. Sin embargo, los métodos existentes de DGSS suelen depender exclusivamente de VFMs o VLMs, pasando por alto sus fortalezas complementarias. Los VFMs (por ejemplo, DINOv2) sobresalen en capturar características de gran detalle, mientras que los VLMs (por ejemplo, CLIP) ofrecen una alineación robusta con el texto pero tienen dificultades con la granularidad gruesa. A pesar de sus fortalezas complementarias, integrar efectivamente VFMs y VLMs con mecanismos de atención es un desafío, ya que el aumento de tokens de parches complica el modelado de secuencias largas. Para abordar esto, proponemos MFuser, un novedoso marco de fusión basado en Mamba que combina eficientemente las fortalezas de VFMs y VLMs manteniendo una escalabilidad lineal en la longitud de la secuencia. MFuser consta de dos componentes clave: MVFuser, que actúa como un co-adaptador para ajustar conjuntamente los dos modelos capturando tanto dinámicas secuenciales como espaciales; y MTEnhancer, un módulo híbrido de atención-Mamba que refina los embeddings de texto incorporando prioridades de imagen. Nuestro enfoque logra una localidad precisa de características y una fuerte alineación de texto sin incurrir en un sobrecosto computacional significativo. Experimentos extensivos demuestran que MFuser supera significativamente a los métodos de DGSS más avanzados, alcanzando 68.20 mIoU en benchmarks de sintético-a-real y 71.87 mIoU en real-a-real. El código está disponible en https://github.com/devinxzhang/MFuser.
English
Vision Foundation Models (VFMs) and Vision-Language Models (VLMs) have gained traction in Domain Generalized Semantic Segmentation (DGSS) due to their strong generalization capabilities. However, existing DGSS methods often rely exclusively on either VFMs or VLMs, overlooking their complementary strengths. VFMs (e.g., DINOv2) excel at capturing fine-grained features, while VLMs (e.g., CLIP) provide robust text alignment but struggle with coarse granularity. Despite their complementary strengths, effectively integrating VFMs and VLMs with attention mechanisms is challenging, as the increased patch tokens complicate long-sequence modeling. To address this, we propose MFuser, a novel Mamba-based fusion framework that efficiently combines the strengths of VFMs and VLMs while maintaining linear scalability in sequence length. MFuser consists of two key components: MVFuser, which acts as a co-adapter to jointly fine-tune the two models by capturing both sequential and spatial dynamics; and MTEnhancer, a hybrid attention-Mamba module that refines text embeddings by incorporating image priors. Our approach achieves precise feature locality and strong text alignment without incurring significant computational overhead. Extensive experiments demonstrate that MFuser significantly outperforms state-of-the-art DGSS methods, achieving 68.20 mIoU on synthetic-to-real and 71.87 mIoU on real-to-real benchmarks. The code is available at https://github.com/devinxzhang/MFuser.

Summary

AI-Generated Summary

PDF52April 8, 2025