ChatPaper.aiChatPaper

Erschließung des Potenzials von MLLMs in der Referring Expression Segmentation durch einen leichtgewichtigen Mask-Decode

Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decode

August 6, 2025
papers.authors: Jingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, Hong Wang
cs.AI

papers.abstract

Die Referenzausdruckssegmentierung (Reference Expression Segmentation, RES) zielt darauf ab, Bildregionen zu segmentieren, die durch referenzielle Ausdrücke spezifiziert sind, und hat mit dem Aufstieg multimodaler großer Modelle (Multimodal Large Models, MLLMs) an Popularität gewonnen. Während MLLMs in der semantischen Verständnisleistung hervorragend sind, kämpft ihr Token-Generierungs-Paradigma mit dichten Vorhersagen auf Pixelebene. Bestehende RES-Methoden koppeln entweder MLLMs mit dem parameterintensiven Segment Anything Model (SAM), das 632M Netzwerkparameter aufweist, oder verwenden SAM-freie, leichte Pipelines, die die Genauigkeit opfern. Um den Kompromiss zwischen Leistung und Kosten zu adressieren, schlagen wir speziell MLLMSeg vor, ein neuartiges Framework, das die inhärenten visuellen Detailmerkmale, die im MLLM-Vision-Encoder kodiert sind, vollständig nutzt, ohne einen zusätzlichen visuellen Encoder einzuführen. Darüber hinaus schlagen wir ein detailverstärktes und semantisch konsistentes Feature-Fusion-Modul (Detail-Enhanced and Semantic-Consistent Feature Fusion Module, DSFF) vor, das das detailbezogene visuelle Feature vollständig mit dem semantikbezogenen Feature integriert, das vom großen Sprachmodell (Large Language Model, LLM) des MLLM ausgegeben wird. Schließlich etablieren wir einen leichten Mask-Decoder mit nur 34M Netzwerkparametern, der detaillierte räumliche Features aus dem visuellen Encoder und semantische Features aus dem LLM optimal nutzt, um präzise Maskenvorhersagen zu erreichen. Umfangreiche Experimente zeigen, dass unsere Methode sowohl SAM-basierte als auch SAM-freie Konkurrenten im Allgemeinen übertrifft und eine bessere Balance zwischen Leistung und Kosten schafft. Der Code ist verfügbar unter https://github.com/jcwang0602/MLLMSeg.
English
Reference Expression Segmentation (RES) aims to segment image regions specified by referring expressions and has become popular with the rise of multimodal large models (MLLMs). While MLLMs excel in semantic understanding, their token-generation paradigm struggles with pixel-level dense prediction. Existing RES methods either couple MLLMs with the parameter-heavy Segment Anything Model (SAM) with 632M network parameters or adopt SAM-free lightweight pipelines that sacrifice accuracy. To address the trade-off between performance and cost, we specifically propose MLLMSeg, a novel framework that fully exploits the inherent visual detail features encoded in the MLLM vision encoder without introducing an extra visual encoder. Besides, we propose a detail-enhanced and semantic-consistent feature fusion module (DSFF) that fully integrates the detail-related visual feature with the semantic-related feature output by the large language model (LLM) of MLLM. Finally, we establish a light-weight mask decoder with only 34M network parameters that optimally leverages detailed spatial features from the visual encoder and semantic features from the LLM to achieve precise mask prediction. Extensive experiments demonstrate that our method generally surpasses both SAM-based and SAM-free competitors, striking a better balance between performance and cost. Code is available at https://github.com/jcwang0602/MLLMSeg.
PDF32August 8, 2025