Раскрытие потенциала MLLM в сегментации по референциальным выражениям с помощью легковесного декодера масок

Аннотация

Сегментация по референсным выражениям (Reference Expression Segmentation, RES) направлена на выделение областей изображения, заданных референсными выражениями, и приобрела популярность с развитием мультимодальных больших моделей (Multimodal Large Models, MLLMs). Хотя MLLMs демонстрируют высокие результаты в семантическом понимании, их парадигма генерации токенов испытывает трудности с плотным прогнозированием на уровне пикселей. Существующие методы RES либо сочетают MLLMs с ресурсоемкой моделью Segment Anything Model (SAM), содержащей 632 миллиона параметров, либо используют облегченные подходы без SAM, жертвуя точностью. Чтобы решить проблему компромисса между производительностью и затратами, мы предлагаем MLLMSeg — новый фреймворк, который полностью использует визуальные детали, закодированные в визуальном энкодере MLLM, без введения дополнительного визуального энкодера. Кроме того, мы предлагаем модуль слияния признаков с усилением деталей и семантической согласованностью (Detail-Enhanced and Semantic-Consistent Feature Fusion, DSFF), который интегрирует визуальные признаки, связанные с деталями, с семантическими признаками, выводимыми языковой моделью (Large Language Model, LLM) MLLM. Наконец, мы разработали легковесный декодер масок с всего 34 миллионами параметров, который оптимально использует пространственные детали из визуального энкодера и семантические признаки из LLM для точного прогнозирования масок. Эксперименты показывают, что наш метод превосходит как SAM-ориентированные, так и SAM-независимые подходы, достигая лучшего баланса между производительностью и затратами. Код доступен по адресу https://github.com/jcwang0602/MLLMSeg.

English

Reference Expression Segmentation (RES) aims to segment image regions specified by referring expressions and has become popular with the rise of multimodal large models (MLLMs). While MLLMs excel in semantic understanding, their token-generation paradigm struggles with pixel-level dense prediction. Existing RES methods either couple MLLMs with the parameter-heavy Segment Anything Model (SAM) with 632M network parameters or adopt SAM-free lightweight pipelines that sacrifice accuracy. To address the trade-off between performance and cost, we specifically propose MLLMSeg, a novel framework that fully exploits the inherent visual detail features encoded in the MLLM vision encoder without introducing an extra visual encoder. Besides, we propose a detail-enhanced and semantic-consistent feature fusion module (DSFF) that fully integrates the detail-related visual feature with the semantic-related feature output by the large language model (LLM) of MLLM. Finally, we establish a light-weight mask decoder with only 34M network parameters that optimally leverages detailed spatial features from the visual encoder and semantic features from the LLM to achieve precise mask prediction. Extensive experiments demonstrate that our method generally surpasses both SAM-based and SAM-free competitors, striking a better balance between performance and cost. Code is available at https://github.com/jcwang0602/MLLMSeg.

Раскрытие потенциала MLLM в сегментации по референциальным выражениям с помощью легковесного декодера масок

Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decode

Аннотация

Support