Exploiter le potentiel des MLLM dans la segmentation des expressions référentielles via un décodeur de masque léger
Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decode
August 6, 2025
papers.authors: Jingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, Hong Wang
cs.AI
papers.abstract
La segmentation d'expression référentielle (RES, *Reference Expression Segmentation*) vise à segmenter les régions d'image spécifiées par des expressions référentielles et a gagné en popularité avec l'essor des modèles multimodaux de grande taille (MLLMs, *Multimodal Large Models*). Bien que les MLLMs excellent dans la compréhension sémantique, leur paradigme de génération de tokens peine à réaliser des prédictions denses au niveau des pixels. Les méthodes RES existantes couplent soit les MLLMs avec le modèle Segment Anything Model (SAM), lourd en paramètres avec 632 millions de paramètres réseau, soit adoptent des pipelines légers sans SAM qui sacrifient la précision. Pour résoudre ce compromis entre performance et coût, nous proposons spécifiquement MLLMSeg, un nouveau cadre qui exploite pleinement les caractéristiques visuelles détaillées intrinsèques encodées dans l'encodeur visuel des MLLMs sans introduire d'encodeur visuel supplémentaire. Par ailleurs, nous proposons un module de fusion de caractéristiques amélioré en détails et cohérent sémantiquement (DSFF, *Detail-Enhanced and Semantic-Consistent Feature Fusion*) qui intègre pleinement la caractéristique visuelle liée aux détails avec la caractéristique sémantique produite par le modèle de langage de grande taille (LLM, *Large Language Model*) des MLLMs. Enfin, nous établissons un décodeur de masque léger avec seulement 34 millions de paramètres réseau qui exploite de manière optimale les caractéristiques spatiales détaillées de l'encodeur visuel et les caractéristiques sémantiques du LLM pour réaliser une prédiction de masque précise. Des expériences approfondies démontrent que notre méthode surpasse généralement à la fois les concurrents basés sur SAM et ceux sans SAM, offrant un meilleur équilibre entre performance et coût. Le code est disponible à l'adresse https://github.com/jcwang0602/MLLMSeg.
English
Reference Expression Segmentation (RES) aims to segment image regions
specified by referring expressions and has become popular with the rise of
multimodal large models (MLLMs). While MLLMs excel in semantic understanding,
their token-generation paradigm struggles with pixel-level dense prediction.
Existing RES methods either couple MLLMs with the parameter-heavy Segment
Anything Model (SAM) with 632M network parameters or adopt SAM-free lightweight
pipelines that sacrifice accuracy. To address the trade-off between performance
and cost, we specifically propose MLLMSeg, a novel framework that fully
exploits the inherent visual detail features encoded in the MLLM vision encoder
without introducing an extra visual encoder. Besides, we propose a
detail-enhanced and semantic-consistent feature fusion module (DSFF) that fully
integrates the detail-related visual feature with the semantic-related feature
output by the large language model (LLM) of MLLM. Finally, we establish a
light-weight mask decoder with only 34M network parameters that optimally
leverages detailed spatial features from the visual encoder and semantic
features from the LLM to achieve precise mask prediction. Extensive experiments
demonstrate that our method generally surpasses both SAM-based and SAM-free
competitors, striking a better balance between performance and cost. Code is
available at https://github.com/jcwang0602/MLLMSeg.