VCR: Visuele Bijschriftherstel
VCR: Visual Caption Restoration
June 10, 2024
Auteurs: Tianyu Zhang, Suyuchen Wang, Lu Li, Ge Zhang, Perouz Taslakian, Sai Rajeswar, Jie Fu, Bang Liu, Yoshua Bengio
cs.AI
Samenvatting
We introduceren Visual Caption Restoration (VCR), een nieuwe vision-language taak die modellen uitdaagt om gedeeltelijk verborgen teksten nauwkeurig te herstellen met behulp van pixel-level hints binnen afbeeldingen. Deze taak ontstaat uit de observatie dat tekst die in afbeeldingen is ingebed, intrinsiek verschilt van veelvoorkomende visuele elementen en natuurlijke taal vanwege de noodzaak om de modaliteiten van visie, tekst en tekst ingebed in afbeeldingen op elkaar af te stemmen. Hoewel talrijke werken tekst ingebed in afbeeldingen hebben geïntegreerd in visuele vraag-antwoordtaken, vertrouwen benaderingen voor deze taken over het algemeen op optische tekenherkenning of gemaskeerde taalmodellering, waardoor de taak voornamelijk wordt gereduceerd tot tekstgebaseerde verwerking. Echter, tekstgebaseerde verwerking wordt ineffectief in VCR, aangezien nauwkeurige tekstherstel afhangt van de gecombineerde informatie uit de verstrekte afbeeldingen, context en subtiele aanwijzingen uit de kleine blootgestelde gebieden van gemaskeerde teksten. We ontwikkelen een pijplijn om synthetische afbeeldingen te genereren voor de VCR-taak met behulp van afbeelding-bijschriftparen, met instelbare bijschriftzichtbaarheid om de taakmoeilijkheid te beheersen. Met deze pijplijn construeren we een dataset voor VCR genaamd VCR-Wiki met behulp van afbeeldingen met bijschriften van Wikipedia, bestaande uit 2,11 miljoen Engelse en 346 duizend Chinese entiteiten in zowel makkelijke als moeilijke splitsvarianten. Onze resultaten onthullen dat huidige vision-language modellen aanzienlijk achterblijven bij menselijke prestaties in de VCR-taak, en het louter finetunen van de modellen op onze dataset leidt niet tot opmerkelijke verbeteringen. We geven VCR-Wiki en de code voor dataconstructie vrij om toekomstig onderzoek te faciliteren.
English
We introduce Visual Caption Restoration (VCR), a novel vision-language task
that challenges models to accurately restore partially obscured texts using
pixel-level hints within images. This task stems from the observation that text
embedded in images is intrinsically different from common visual elements and
natural language due to the need to align the modalities of vision, text, and
text embedded in images. While numerous works have integrated text embedded in
images into visual question-answering tasks, approaches to these tasks
generally rely on optical character recognition or masked language modeling,
thus reducing the task to mainly text-based processing. However, text-based
processing becomes ineffective in VCR as accurate text restoration depends on
the combined information from provided images, context, and subtle cues from
the tiny exposed areas of masked texts. We develop a pipeline to generate
synthetic images for the VCR task using image-caption pairs, with adjustable
caption visibility to control the task difficulty. With this pipeline, we
construct a dataset for VCR called VCR-Wiki using images with captions from
Wikipedia, comprising 2.11M English and 346K Chinese entities in both easy and
hard split variants. Our results reveal that current vision language models
significantly lag behind human performance in the VCR task, and merely
fine-tuning the models on our dataset does not lead to notable improvements. We
release VCR-Wiki and the data construction code to facilitate future research.