ChatPaper.aiChatPaper

Desbloqueando el Potencial de los MLLM en la Segmentación de Expresiones Referenciales mediante un Decodificador de Máscara Ligero

Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decode

August 6, 2025
Autores: Jingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, Hong Wang
cs.AI

Resumen

La Segmentación de Expresiones de Referencia (RES, por sus siglas en inglés) tiene como objetivo segmentar regiones de imágenes especificadas mediante expresiones referenciales y ha ganado popularidad con el auge de los modelos grandes multimodales (MLLMs, por sus siglas en inglés). Si bien los MLLMs destacan en la comprensión semántica, su paradigma de generación de tokens enfrenta dificultades en la predicción densa a nivel de píxeles. Los métodos existentes de RES acoplan los MLLMs con el Segment Anything Model (SAM), un modelo con 632 millones de parámetros, o adoptan pipelines ligeros sin SAM que sacrifican precisión. Para abordar el equilibrio entre rendimiento y costo, proponemos específicamente MLLMSeg, un marco novedoso que aprovecha al máximo las características visuales detalladas inherentes codificadas en el codificador visual del MLLM sin introducir un codificador visual adicional. Además, proponemos un módulo de fusión de características mejorado en detalles y consistente semánticamente (DSFF, por sus siglas en inglés) que integra completamente la característica visual relacionada con los detalles con la característica semántica generada por el modelo de lenguaje grande (LLM, por sus siglas en inglés) del MLLM. Finalmente, establecemos un decodificador de máscara ligero con solo 34 millones de parámetros que aprovecha óptimamente las características espaciales detalladas del codificador visual y las características semánticas del LLM para lograr una predicción precisa de máscaras. Experimentos extensos demuestran que nuestro método supera generalmente a los competidores basados en SAM y sin SAM, logrando un mejor equilibrio entre rendimiento y costo. El código está disponible en https://github.com/jcwang0602/MLLMSeg.
English
Reference Expression Segmentation (RES) aims to segment image regions specified by referring expressions and has become popular with the rise of multimodal large models (MLLMs). While MLLMs excel in semantic understanding, their token-generation paradigm struggles with pixel-level dense prediction. Existing RES methods either couple MLLMs with the parameter-heavy Segment Anything Model (SAM) with 632M network parameters or adopt SAM-free lightweight pipelines that sacrifice accuracy. To address the trade-off between performance and cost, we specifically propose MLLMSeg, a novel framework that fully exploits the inherent visual detail features encoded in the MLLM vision encoder without introducing an extra visual encoder. Besides, we propose a detail-enhanced and semantic-consistent feature fusion module (DSFF) that fully integrates the detail-related visual feature with the semantic-related feature output by the large language model (LLM) of MLLM. Finally, we establish a light-weight mask decoder with only 34M network parameters that optimally leverages detailed spatial features from the visual encoder and semantic features from the LLM to achieve precise mask prediction. Extensive experiments demonstrate that our method generally surpasses both SAM-based and SAM-free competitors, striking a better balance between performance and cost. Code is available at https://github.com/jcwang0602/MLLMSeg.
PDF32August 8, 2025