Раскрытие потенциала MLLM в сегментации по референциальным выражениям с помощью легковесного декодера масок
Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decode
August 6, 2025
Авторы: Jingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, Hong Wang
cs.AI
Аннотация
Сегментация по референсным выражениям (Reference Expression Segmentation, RES) направлена на выделение областей изображения, заданных референсными выражениями, и приобрела популярность с развитием мультимодальных больших моделей (Multimodal Large Models, MLLMs). Хотя MLLMs демонстрируют высокие результаты в семантическом понимании, их парадигма генерации токенов испытывает трудности с плотным прогнозированием на уровне пикселей. Существующие методы RES либо сочетают MLLMs с ресурсоемкой моделью Segment Anything Model (SAM), содержащей 632 миллиона параметров, либо используют облегченные подходы без SAM, жертвуя точностью. Чтобы решить проблему компромисса между производительностью и затратами, мы предлагаем MLLMSeg — новый фреймворк, который полностью использует визуальные детали, закодированные в визуальном энкодере MLLM, без введения дополнительного визуального энкодера. Кроме того, мы предлагаем модуль слияния признаков с усилением деталей и семантической согласованностью (Detail-Enhanced and Semantic-Consistent Feature Fusion, DSFF), который интегрирует визуальные признаки, связанные с деталями, с семантическими признаками, выводимыми языковой моделью (Large Language Model, LLM) MLLM. Наконец, мы разработали легковесный декодер масок с всего 34 миллионами параметров, который оптимально использует пространственные детали из визуального энкодера и семантические признаки из LLM для точного прогнозирования масок. Эксперименты показывают, что наш метод превосходит как SAM-ориентированные, так и SAM-независимые подходы, достигая лучшего баланса между производительностью и затратами. Код доступен по адресу https://github.com/jcwang0602/MLLMSeg.
English
Reference Expression Segmentation (RES) aims to segment image regions
specified by referring expressions and has become popular with the rise of
multimodal large models (MLLMs). While MLLMs excel in semantic understanding,
their token-generation paradigm struggles with pixel-level dense prediction.
Existing RES methods either couple MLLMs with the parameter-heavy Segment
Anything Model (SAM) with 632M network parameters or adopt SAM-free lightweight
pipelines that sacrifice accuracy. To address the trade-off between performance
and cost, we specifically propose MLLMSeg, a novel framework that fully
exploits the inherent visual detail features encoded in the MLLM vision encoder
without introducing an extra visual encoder. Besides, we propose a
detail-enhanced and semantic-consistent feature fusion module (DSFF) that fully
integrates the detail-related visual feature with the semantic-related feature
output by the large language model (LLM) of MLLM. Finally, we establish a
light-weight mask decoder with only 34M network parameters that optimally
leverages detailed spatial features from the visual encoder and semantic
features from the LLM to achieve precise mask prediction. Extensive experiments
demonstrate that our method generally surpasses both SAM-based and SAM-free
competitors, striking a better balance between performance and cost. Code is
available at https://github.com/jcwang0602/MLLMSeg.