Het ontsluiten van het potentieel van MLLMs in Referring Expression Segmentation via een lichtgewicht maskerdecodeerproces
Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decode
August 6, 2025
Auteurs: Jingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, Hong Wang
cs.AI
Samenvatting
Reference Expression Segmentation (RES) heeft als doel om beeldregio's te segmenteren die worden gespecificeerd door verwijzende uitdrukkingen en is populair geworden met de opkomst van multimodale grote modellen (MLLMs). Hoewel MLLMs uitblinken in semantisch begrip, worstelt hun token-generatieparadigma met pixelniveau dichte voorspellingen. Bestaande RES-methoden koppelen MLLMs ofwel aan het parameterzware Segment Anything Model (SAM) met 632M netwerkparameters, of nemen SAM-vrije lichtgewicht pijplijnen over die nauwkeurigheid opofferen. Om de afweging tussen prestaties en kosten aan te pakken, stellen we specifiek MLLMSeg voor, een nieuw raamwerk dat volledig gebruikmaakt van de inherente visuele detailkenmerken die zijn gecodeerd in de MLLM-visie-encoder zonder een extra visuele encoder te introduceren. Daarnaast stellen we een detailversterkte en semantisch consistente kenmerkenfusiemodule (DSFF) voor die de detailgerelateerde visuele kenmerken volledig integreert met de semantisch gerelateerde kenmerken die worden uitgevoerd door het grote taalmodel (LLM) van MLLM. Ten slotte stellen we een lichtgewicht maskerdecoder op met slechts 34M netwerkparameters die optimaal gebruikmaakt van gedetailleerde ruimtelijke kenmerken van de visuele encoder en semantische kenmerken van het LLM om nauwkeurige maskervoorspellingen te bereiken. Uitgebreide experimenten tonen aan dat onze methode over het algemeen zowel SAM-gebaseerde als SAM-vrije concurrenten overtreft, waardoor een betere balans tussen prestaties en kosten wordt bereikt. Code is beschikbaar op https://github.com/jcwang0602/MLLMSeg.
English
Reference Expression Segmentation (RES) aims to segment image regions
specified by referring expressions and has become popular with the rise of
multimodal large models (MLLMs). While MLLMs excel in semantic understanding,
their token-generation paradigm struggles with pixel-level dense prediction.
Existing RES methods either couple MLLMs with the parameter-heavy Segment
Anything Model (SAM) with 632M network parameters or adopt SAM-free lightweight
pipelines that sacrifice accuracy. To address the trade-off between performance
and cost, we specifically propose MLLMSeg, a novel framework that fully
exploits the inherent visual detail features encoded in the MLLM vision encoder
without introducing an extra visual encoder. Besides, we propose a
detail-enhanced and semantic-consistent feature fusion module (DSFF) that fully
integrates the detail-related visual feature with the semantic-related feature
output by the large language model (LLM) of MLLM. Finally, we establish a
light-weight mask decoder with only 34M network parameters that optimally
leverages detailed spatial features from the visual encoder and semantic
features from the LLM to achieve precise mask prediction. Extensive experiments
demonstrate that our method generally surpasses both SAM-based and SAM-free
competitors, striking a better balance between performance and cost. Code is
available at https://github.com/jcwang0602/MLLMSeg.