Прогрессивное визуальное обучение с языковым сопровождением для многозадачного визуального закрепления

Аннотация

Мультизадачное визуальное заземление (MTVG) включает две подзадачи: понимание референциальных выражений (REC) и сегментацию референциальных выражений (RES). Существующие репрезентативные подходы, как правило, следуют исследовательскому конвейеру, который в основном состоит из трех ключевых процедур: независимое извлечение признаков для визуальной и лингвистической модальностей, модуль кросс-модального взаимодействия и независимые головы предсказания для различных подзадач. Несмотря на достижение впечатляющих результатов, этот подход имеет два ограничения: 1) Лингвистическое содержание не полностью интегрировано в визуальный бэкбон для улучшения извлечения визуальных признаков, что требует дополнительного модуля кросс-модального взаимодействия; 2) Взаимосвязь между задачами REC и RES не эффективно используется для совместного предсказания с целью получения более точных результатов. Для решения этих проблем в данной статье мы предлагаем прогрессивную языково-ориентированную визуальную обучающую структуру для мультизадачного визуального заземления, называемую PLVL, которая не только тщательно исследует внутренние особенности визуальной модальности, но и постепенно интегрирует языковую информацию для обучения лингвистически связанных визуальных признаков. Таким образом, наш PLVL не требует дополнительного модуля кросс-модального слияния, при этом полностью используя языковое руководство. Кроме того, мы анализируем, что локализация центра для REC может в некоторой степени помочь определить область объекта для сегментации в RES. Вдохновленные этим исследованием, мы разрабатываем мультизадачную голову для совместного предсказания этих двух подзадач. Многочисленные эксперименты, проведенные на нескольких эталонных наборах данных, всесторонне подтверждают, что наш PLVL значительно превосходит репрезентативные методы как в задачах REC, так и в RES. https://github.com/jcwang0602/PLVL

English

Multi-task visual grounding (MTVG) includes two sub-tasks, i.e., Referring Expression Comprehension (REC) and Referring Expression Segmentation (RES). The existing representative approaches generally follow the research pipeline which mainly consists of three core procedures, including independent feature extraction for visual and linguistic modalities, respectively, cross-modal interaction module, and independent prediction heads for different sub-tasks. Albeit achieving remarkable performance, this research line has two limitations: 1) The linguistic content has not been fully injected into the entire visual backbone for boosting more effective visual feature extraction and it needs an extra cross-modal interaction module; 2) The relationship between REC and RES tasks is not effectively exploited to help the collaborative prediction for more accurate output. To deal with these problems, in this paper, we propose a Progressive Language-guided Visual Learning framework for multi-task visual grounding, called PLVL, which not only finely mine the inherent feature expression of the visual modality itself but also progressively inject the language information to help learn linguistic-related visual features. In this manner, our PLVL does not need additional cross-modal fusion module while fully introducing the language guidance. Furthermore, we analyze that the localization center for REC would help identify the to-be-segmented object region for RES to some extent. Inspired by this investigation, we design a multi-task head to accomplish collaborative predictions for these two sub-tasks. Extensive experiments conducted on several benchmark datasets comprehensively substantiate that our PLVL obviously outperforms the representative methods in both REC and RES tasks. https://github.com/jcwang0602/PLVL

Прогрессивное визуальное обучение с языковым сопровождением для многозадачного визуального закрепления

Progressive Language-guided Visual Learning for Multi-Task Visual Grounding

Аннотация

Support