Desbloqueando o Potencial dos MLLMs na Segmentação de Expressões Referenciais por meio de um Decodificador de Máscara Leve
Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decode
August 6, 2025
Autores: Jingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, Hong Wang
cs.AI
Resumo
A Segmentação de Expressões de Referência (RES, do inglês Reference Expression Segmentation) tem como objetivo segmentar regiões de imagens especificadas por expressões de referência e ganhou popularidade com o surgimento de modelos grandes multimodais (MLLMs, do inglês Multimodal Large Models). Embora os MLLMs se destaquem na compreensão semântica, seu paradigma de geração de tokens enfrenta dificuldades com previsões densas em nível de pixel. Os métodos existentes de RES ou acoplam MLLMs ao Segment Anything Model (SAM), um modelo pesado com 632 milhões de parâmetros, ou adotam pipelines leves sem SAM que sacrificam a precisão. Para abordar o equilíbrio entre desempenho e custo, propomos especificamente o MLLMSeg, uma nova estrutura que explora totalmente as características visuais detalhadas inerentes codificadas no codificador visual do MLLM, sem introduzir um codificador visual adicional. Além disso, propomos um módulo de fusão de características detalhadas e semanticamente consistentes (DSFF, do inglês Detail-Enhanced and Semantic-Consistent Feature Fusion) que integra plenamente a característica visual relacionada a detalhes com a característica semântica gerada pelo modelo de linguagem grande (LLM, do inglês Large Language Model) do MLLM. Por fim, estabelecemos um decodificador de máscara leve com apenas 34 milhões de parâmetros que aproveita de forma ideal as características espaciais detalhadas do codificador visual e as características semânticas do LLM para alcançar previsões de máscara precisas. Experimentos extensivos demonstram que nosso método geralmente supera tanto os concorrentes baseados em SAM quanto os sem SAM, alcançando um melhor equilíbrio entre desempenho e custo. O código está disponível em https://github.com/jcwang0602/MLLMSeg.
English
Reference Expression Segmentation (RES) aims to segment image regions
specified by referring expressions and has become popular with the rise of
multimodal large models (MLLMs). While MLLMs excel in semantic understanding,
their token-generation paradigm struggles with pixel-level dense prediction.
Existing RES methods either couple MLLMs with the parameter-heavy Segment
Anything Model (SAM) with 632M network parameters or adopt SAM-free lightweight
pipelines that sacrifice accuracy. To address the trade-off between performance
and cost, we specifically propose MLLMSeg, a novel framework that fully
exploits the inherent visual detail features encoded in the MLLM vision encoder
without introducing an extra visual encoder. Besides, we propose a
detail-enhanced and semantic-consistent feature fusion module (DSFF) that fully
integrates the detail-related visual feature with the semantic-related feature
output by the large language model (LLM) of MLLM. Finally, we establish a
light-weight mask decoder with only 34M network parameters that optimally
leverages detailed spatial features from the visual encoder and semantic
features from the LLM to achieve precise mask prediction. Extensive experiments
demonstrate that our method generally surpasses both SAM-based and SAM-free
competitors, striking a better balance between performance and cost. Code is
available at https://github.com/jcwang0602/MLLMSeg.