Apprentissage Visuel Progressif Guidé par le Langage pour l'Ancrage Visuel Multi-Tâches
Progressive Language-guided Visual Learning for Multi-Task Visual Grounding
April 22, 2025
Auteurs: Jingchao Wang, Hong Wang, Wenlong Zhang, Kunhua Ji, Dingjiang Huang, Yefeng Zheng
cs.AI
Résumé
L'ancrage visuel multi-tâches (MTVG) comprend deux sous-tâches, à savoir la compréhension d'expressions référentielles (REC) et la segmentation d'expressions référentielles (RES). Les approches représentatives existantes suivent généralement un pipeline de recherche qui se compose principalement de trois procédures clés : l'extraction indépendante de caractéristiques pour les modalités visuelles et linguistiques respectivement, un module d'interaction cross-modale, et des têtes de prédiction indépendantes pour les différentes sous-tâches. Bien qu'elles obtiennent des performances remarquables, cette ligne de recherche présente deux limitations : 1) Le contenu linguistique n'est pas pleinement injecté dans l'ensemble du backbone visuel pour stimuler une extraction de caractéristiques visuelles plus efficace, et nécessite un module d'interaction cross-modale supplémentaire ; 2) La relation entre les tâches REC et RES n'est pas exploitée efficacement pour aider à la prédiction collaborative afin d'obtenir une sortie plus précise. Pour résoudre ces problèmes, dans cet article, nous proposons un cadre d'apprentissage visuel guidé par le langage progressif pour l'ancrage visuel multi-tâches, appelé PLVL, qui non seulement exploite finement l'expression intrinsèque des caractéristiques de la modalité visuelle elle-même, mais injecte également progressivement les informations linguistiques pour aider à apprendre les caractéristiques visuelles liées au langage. De cette manière, notre PLVL n'a pas besoin de module de fusion cross-modale supplémentaire tout en introduisant pleinement le guidage linguistique. De plus, nous analysons que le centre de localisation pour REC aiderait à identifier dans une certaine mesure la région de l'objet à segmenter pour RES. Inspirés par cette analyse, nous concevons une tête multi-tâches pour accomplir des prédictions collaboratives pour ces deux sous-tâches. Des expériences approfondies menées sur plusieurs ensembles de données de référence confirment de manière exhaustive que notre PLVL surpasse de manière évidente les méthodes représentatives dans les tâches REC et RES.
https://github.com/jcwang0602/PLVL
English
Multi-task visual grounding (MTVG) includes two sub-tasks, i.e., Referring
Expression Comprehension (REC) and Referring Expression Segmentation (RES). The
existing representative approaches generally follow the research pipeline which
mainly consists of three core procedures, including independent feature
extraction for visual and linguistic modalities, respectively, cross-modal
interaction module, and independent prediction heads for different sub-tasks.
Albeit achieving remarkable performance, this research line has two
limitations: 1) The linguistic content has not been fully injected into the
entire visual backbone for boosting more effective visual feature extraction
and it needs an extra cross-modal interaction module; 2) The relationship
between REC and RES tasks is not effectively exploited to help the
collaborative prediction for more accurate output. To deal with these problems,
in this paper, we propose a Progressive Language-guided Visual Learning
framework for multi-task visual grounding, called PLVL, which not only finely
mine the inherent feature expression of the visual modality itself but also
progressively inject the language information to help learn linguistic-related
visual features. In this manner, our PLVL does not need additional cross-modal
fusion module while fully introducing the language guidance. Furthermore, we
analyze that the localization center for REC would help identify the
to-be-segmented object region for RES to some extent. Inspired by this
investigation, we design a multi-task head to accomplish collaborative
predictions for these two sub-tasks. Extensive experiments conducted on several
benchmark datasets comprehensively substantiate that our PLVL obviously
outperforms the representative methods in both REC and RES tasks.
https://github.com/jcwang0602/PLVLSummary
AI-Generated Summary