Progressief Taalgestuurd Visueel Leren voor Multi-Taak Visuele Verankering
Progressive Language-guided Visual Learning for Multi-Task Visual Grounding
April 22, 2025
Auteurs: Jingchao Wang, Hong Wang, Wenlong Zhang, Kunhua Ji, Dingjiang Huang, Yefeng Zheng
cs.AI
Samenvatting
Multi-task visuele grounding (MTVG) omvat twee sub-taken, namelijk Referring Expression Comprehension (REC) en Referring Expression Segmentation (RES). De bestaande representatieve benaderingen volgen over het algemeen de onderzoekspijplijn die voornamelijk bestaat uit drie kernprocedures, waaronder onafhankelijke feature-extractie voor respectievelijk visuele en linguïstische modaliteiten, een cross-modale interactiemodule, en onafhankelijke voorspellingskoppen voor verschillende sub-taken. Hoewel deze onderzoekslijn opmerkelijke prestaties behaalt, heeft het twee beperkingen: 1) De linguïstische inhoud is niet volledig geïnjecteerd in de gehele visuele backbone om effectievere visuele feature-extractie te bevorderen en het vereist een extra cross-modale interactiemodule; 2) De relatie tussen REC- en RES-taken wordt niet effectief benut om de collaboratieve voorspelling voor een nauwkeurigere output te ondersteunen. Om deze problemen aan te pakken, stellen we in dit artikel een Progressive Language-guided Visual Learning-framework voor multi-task visuele grounding voor, genaamd PLVL, dat niet alleen de inherente feature-expressie van de visuele modaliteit zelf fijnmijnt, maar ook progressief taalinformatie injecteert om linguïstisch-gerelateerde visuele features te helpen leren. Op deze manier heeft onze PLVL geen extra cross-modale fusiemodule nodig terwijl de taalbegeleiding volledig wordt geïntroduceerd. Verder analyseren we dat het lokalisatiecentrum voor REC in zekere mate zou helpen bij het identificeren van het te segmenteren objectgebied voor RES. Geïnspireerd door dit onderzoek ontwerpen we een multi-task kop om collaboratieve voorspellingen voor deze twee sub-taken te realiseren. Uitgebreide experimenten uitgevoerd op verschillende benchmark-datasets ondersteunen uitgebreid dat onze PLVL duidelijk beter presteert dan de representatieve methoden in zowel REC- als RES-taken.
https://github.com/jcwang0602/PLVL
English
Multi-task visual grounding (MTVG) includes two sub-tasks, i.e., Referring
Expression Comprehension (REC) and Referring Expression Segmentation (RES). The
existing representative approaches generally follow the research pipeline which
mainly consists of three core procedures, including independent feature
extraction for visual and linguistic modalities, respectively, cross-modal
interaction module, and independent prediction heads for different sub-tasks.
Albeit achieving remarkable performance, this research line has two
limitations: 1) The linguistic content has not been fully injected into the
entire visual backbone for boosting more effective visual feature extraction
and it needs an extra cross-modal interaction module; 2) The relationship
between REC and RES tasks is not effectively exploited to help the
collaborative prediction for more accurate output. To deal with these problems,
in this paper, we propose a Progressive Language-guided Visual Learning
framework for multi-task visual grounding, called PLVL, which not only finely
mine the inherent feature expression of the visual modality itself but also
progressively inject the language information to help learn linguistic-related
visual features. In this manner, our PLVL does not need additional cross-modal
fusion module while fully introducing the language guidance. Furthermore, we
analyze that the localization center for REC would help identify the
to-be-segmented object region for RES to some extent. Inspired by this
investigation, we design a multi-task head to accomplish collaborative
predictions for these two sub-tasks. Extensive experiments conducted on several
benchmark datasets comprehensively substantiate that our PLVL obviously
outperforms the representative methods in both REC and RES tasks.
https://github.com/jcwang0602/PLVLSummary
AI-Generated Summary