ChatPaper.aiChatPaper

Het ontsluiten van het potentieel van MLLMs in Referring Expression Segmentation via een lichtgewicht maskerdecodeerproces

Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decode

August 6, 2025
Auteurs: Jingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, Hong Wang
cs.AI

Samenvatting

Reference Expression Segmentation (RES) heeft als doel om beeldregio's te segmenteren die worden gespecificeerd door verwijzende uitdrukkingen en is populair geworden met de opkomst van multimodale grote modellen (MLLMs). Hoewel MLLMs uitblinken in semantisch begrip, worstelt hun token-generatieparadigma met pixelniveau dichte voorspellingen. Bestaande RES-methoden koppelen MLLMs ofwel aan het parameterzware Segment Anything Model (SAM) met 632M netwerkparameters, of nemen SAM-vrije lichtgewicht pijplijnen over die nauwkeurigheid opofferen. Om de afweging tussen prestaties en kosten aan te pakken, stellen we specifiek MLLMSeg voor, een nieuw raamwerk dat volledig gebruikmaakt van de inherente visuele detailkenmerken die zijn gecodeerd in de MLLM-visie-encoder zonder een extra visuele encoder te introduceren. Daarnaast stellen we een detailversterkte en semantisch consistente kenmerkenfusiemodule (DSFF) voor die de detailgerelateerde visuele kenmerken volledig integreert met de semantisch gerelateerde kenmerken die worden uitgevoerd door het grote taalmodel (LLM) van MLLM. Ten slotte stellen we een lichtgewicht maskerdecoder op met slechts 34M netwerkparameters die optimaal gebruikmaakt van gedetailleerde ruimtelijke kenmerken van de visuele encoder en semantische kenmerken van het LLM om nauwkeurige maskervoorspellingen te bereiken. Uitgebreide experimenten tonen aan dat onze methode over het algemeen zowel SAM-gebaseerde als SAM-vrije concurrenten overtreft, waardoor een betere balans tussen prestaties en kosten wordt bereikt. Code is beschikbaar op https://github.com/jcwang0602/MLLMSeg.
English
Reference Expression Segmentation (RES) aims to segment image regions specified by referring expressions and has become popular with the rise of multimodal large models (MLLMs). While MLLMs excel in semantic understanding, their token-generation paradigm struggles with pixel-level dense prediction. Existing RES methods either couple MLLMs with the parameter-heavy Segment Anything Model (SAM) with 632M network parameters or adopt SAM-free lightweight pipelines that sacrifice accuracy. To address the trade-off between performance and cost, we specifically propose MLLMSeg, a novel framework that fully exploits the inherent visual detail features encoded in the MLLM vision encoder without introducing an extra visual encoder. Besides, we propose a detail-enhanced and semantic-consistent feature fusion module (DSFF) that fully integrates the detail-related visual feature with the semantic-related feature output by the large language model (LLM) of MLLM. Finally, we establish a light-weight mask decoder with only 34M network parameters that optimally leverages detailed spatial features from the visual encoder and semantic features from the LLM to achieve precise mask prediction. Extensive experiments demonstrate that our method generally surpasses both SAM-based and SAM-free competitors, striking a better balance between performance and cost. Code is available at https://github.com/jcwang0602/MLLMSeg.
PDF22August 8, 2025