Sfruttare il Potenziale dei MLLM nella Segmentazione di Espressioni Referenziali tramite un Decodificatore di Maschere Leggero
Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decode
August 6, 2025
Autori: Jingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, Hong Wang
cs.AI
Abstract
La Segmentazione delle Espressioni di Riferimento (RES) mira a segmentare le regioni di un'immagine specificate da espressioni di riferimento ed è diventata popolare con l'ascesa dei modelli multimodali di grandi dimensioni (MLLMs). Sebbene gli MLLMs eccellano nella comprensione semantica, il loro paradigma di generazione di token fatica con la previsione densa a livello di pixel. I metodi RES esistenti accoppiano gli MLLMs con il Segment Anything Model (SAM), che ha 632 milioni di parametri di rete, oppure adottano pipeline leggere senza SAM che sacrificano l'accuratezza. Per affrontare il compromesso tra prestazioni e costi, proponiamo specificamente MLLMSeg, un nuovo framework che sfrutta appieno le caratteristiche visive dettagliate intrinseche codificate nell'encoder visivo dell'MLLM senza introdurre un encoder visivo aggiuntivo. Inoltre, proponiamo un modulo di fusione delle caratteristiche potenziato nei dettagli e coerente a livello semantico (DSFF) che integra pienamente la caratteristica visiva relativa ai dettagli con la caratteristica semantica prodotta dal modello linguistico di grandi dimensioni (LLM) dell'MLLM. Infine, stabiliamo un decoder di maschera leggero con soli 34 milioni di parametri di rete che sfrutta in modo ottimale le caratteristiche spaziali dettagliate dell'encoder visivo e le caratteristiche semantiche dell'LLM per ottenere una previsione precisa della maschera. Esperimenti estensivi dimostrano che il nostro metodo supera generalmente sia i concorrenti basati su SAM che quelli senza SAM, raggiungendo un migliore equilibrio tra prestazioni e costi. Il codice è disponibile all'indirizzo https://github.com/jcwang0602/MLLMSeg.
English
Reference Expression Segmentation (RES) aims to segment image regions
specified by referring expressions and has become popular with the rise of
multimodal large models (MLLMs). While MLLMs excel in semantic understanding,
their token-generation paradigm struggles with pixel-level dense prediction.
Existing RES methods either couple MLLMs with the parameter-heavy Segment
Anything Model (SAM) with 632M network parameters or adopt SAM-free lightweight
pipelines that sacrifice accuracy. To address the trade-off between performance
and cost, we specifically propose MLLMSeg, a novel framework that fully
exploits the inherent visual detail features encoded in the MLLM vision encoder
without introducing an extra visual encoder. Besides, we propose a
detail-enhanced and semantic-consistent feature fusion module (DSFF) that fully
integrates the detail-related visual feature with the semantic-related feature
output by the large language model (LLM) of MLLM. Finally, we establish a
light-weight mask decoder with only 34M network parameters that optimally
leverages detailed spatial features from the visual encoder and semantic
features from the LLM to achieve precise mask prediction. Extensive experiments
demonstrate that our method generally surpasses both SAM-based and SAM-free
competitors, striking a better balance between performance and cost. Code is
available at https://github.com/jcwang0602/MLLMSeg.