Прогрессивное визуальное обучение с языковым сопровождением для многозадачного визуального закрепления
Progressive Language-guided Visual Learning for Multi-Task Visual Grounding
April 22, 2025
Авторы: Jingchao Wang, Hong Wang, Wenlong Zhang, Kunhua Ji, Dingjiang Huang, Yefeng Zheng
cs.AI
Аннотация
Мультизадачное визуальное заземление (MTVG) включает две подзадачи: понимание референциальных выражений (REC) и сегментацию референциальных выражений (RES). Существующие репрезентативные подходы, как правило, следуют исследовательскому конвейеру, который в основном состоит из трех ключевых процедур: независимое извлечение признаков для визуальной и лингвистической модальностей, модуль кросс-модального взаимодействия и независимые головы предсказания для различных подзадач. Несмотря на достижение впечатляющих результатов, этот подход имеет два ограничения: 1) Лингвистическое содержание не полностью интегрировано в визуальный бэкбон для улучшения извлечения визуальных признаков, что требует дополнительного модуля кросс-модального взаимодействия; 2) Взаимосвязь между задачами REC и RES не эффективно используется для совместного предсказания с целью получения более точных результатов. Для решения этих проблем в данной статье мы предлагаем прогрессивную языково-ориентированную визуальную обучающую структуру для мультизадачного визуального заземления, называемую PLVL, которая не только тщательно исследует внутренние особенности визуальной модальности, но и постепенно интегрирует языковую информацию для обучения лингвистически связанных визуальных признаков. Таким образом, наш PLVL не требует дополнительного модуля кросс-модального слияния, при этом полностью используя языковое руководство. Кроме того, мы анализируем, что локализация центра для REC может в некоторой степени помочь определить область объекта для сегментации в RES. Вдохновленные этим исследованием, мы разрабатываем мультизадачную голову для совместного предсказания этих двух подзадач. Многочисленные эксперименты, проведенные на нескольких эталонных наборах данных, всесторонне подтверждают, что наш PLVL значительно превосходит репрезентативные методы как в задачах REC, так и в RES.
https://github.com/jcwang0602/PLVL
English
Multi-task visual grounding (MTVG) includes two sub-tasks, i.e., Referring
Expression Comprehension (REC) and Referring Expression Segmentation (RES). The
existing representative approaches generally follow the research pipeline which
mainly consists of three core procedures, including independent feature
extraction for visual and linguistic modalities, respectively, cross-modal
interaction module, and independent prediction heads for different sub-tasks.
Albeit achieving remarkable performance, this research line has two
limitations: 1) The linguistic content has not been fully injected into the
entire visual backbone for boosting more effective visual feature extraction
and it needs an extra cross-modal interaction module; 2) The relationship
between REC and RES tasks is not effectively exploited to help the
collaborative prediction for more accurate output. To deal with these problems,
in this paper, we propose a Progressive Language-guided Visual Learning
framework for multi-task visual grounding, called PLVL, which not only finely
mine the inherent feature expression of the visual modality itself but also
progressively inject the language information to help learn linguistic-related
visual features. In this manner, our PLVL does not need additional cross-modal
fusion module while fully introducing the language guidance. Furthermore, we
analyze that the localization center for REC would help identify the
to-be-segmented object region for RES to some extent. Inspired by this
investigation, we design a multi-task head to accomplish collaborative
predictions for these two sub-tasks. Extensive experiments conducted on several
benchmark datasets comprehensively substantiate that our PLVL obviously
outperforms the representative methods in both REC and RES tasks.
https://github.com/jcwang0602/PLVLSummary
AI-Generated Summary