Exploiter le potentiel des MLLM dans la segmentation des expressions référentielles via un décodeur de masque léger

papers.abstract

La segmentation d'expression référentielle (RES, *Reference Expression Segmentation*) vise à segmenter les régions d'image spécifiées par des expressions référentielles et a gagné en popularité avec l'essor des modèles multimodaux de grande taille (MLLMs, *Multimodal Large Models*). Bien que les MLLMs excellent dans la compréhension sémantique, leur paradigme de génération de tokens peine à réaliser des prédictions denses au niveau des pixels. Les méthodes RES existantes couplent soit les MLLMs avec le modèle Segment Anything Model (SAM), lourd en paramètres avec 632 millions de paramètres réseau, soit adoptent des pipelines légers sans SAM qui sacrifient la précision. Pour résoudre ce compromis entre performance et coût, nous proposons spécifiquement MLLMSeg, un nouveau cadre qui exploite pleinement les caractéristiques visuelles détaillées intrinsèques encodées dans l'encodeur visuel des MLLMs sans introduire d'encodeur visuel supplémentaire. Par ailleurs, nous proposons un module de fusion de caractéristiques amélioré en détails et cohérent sémantiquement (DSFF, *Detail-Enhanced and Semantic-Consistent Feature Fusion*) qui intègre pleinement la caractéristique visuelle liée aux détails avec la caractéristique sémantique produite par le modèle de langage de grande taille (LLM, *Large Language Model*) des MLLMs. Enfin, nous établissons un décodeur de masque léger avec seulement 34 millions de paramètres réseau qui exploite de manière optimale les caractéristiques spatiales détaillées de l'encodeur visuel et les caractéristiques sémantiques du LLM pour réaliser une prédiction de masque précise. Des expériences approfondies démontrent que notre méthode surpasse généralement à la fois les concurrents basés sur SAM et ceux sans SAM, offrant un meilleur équilibre entre performance et coût. Le code est disponible à l'adresse https://github.com/jcwang0602/MLLMSeg.

English

Reference Expression Segmentation (RES) aims to segment image regions specified by referring expressions and has become popular with the rise of multimodal large models (MLLMs). While MLLMs excel in semantic understanding, their token-generation paradigm struggles with pixel-level dense prediction. Existing RES methods either couple MLLMs with the parameter-heavy Segment Anything Model (SAM) with 632M network parameters or adopt SAM-free lightweight pipelines that sacrifice accuracy. To address the trade-off between performance and cost, we specifically propose MLLMSeg, a novel framework that fully exploits the inherent visual detail features encoded in the MLLM vision encoder without introducing an extra visual encoder. Besides, we propose a detail-enhanced and semantic-consistent feature fusion module (DSFF) that fully integrates the detail-related visual feature with the semantic-related feature output by the large language model (LLM) of MLLM. Finally, we establish a light-weight mask decoder with only 34M network parameters that optimally leverages detailed spatial features from the visual encoder and semantic features from the LLM to achieve precise mask prediction. Extensive experiments demonstrate that our method generally surpasses both SAM-based and SAM-free competitors, striking a better balance between performance and cost. Code is available at https://github.com/jcwang0602/MLLMSeg.

Exploiter le potentiel des MLLM dans la segmentation des expressions référentielles via un décodeur de masque léger

Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decode

papers.abstract

Support