VCR: Ripristino delle Didascalie Visive
VCR: Visual Caption Restoration
June 10, 2024
Autori: Tianyu Zhang, Suyuchen Wang, Lu Li, Ge Zhang, Perouz Taslakian, Sai Rajeswar, Jie Fu, Bang Liu, Yoshua Bengio
cs.AI
Abstract
Introduciamo il Visual Caption Restoration (VCR), un nuovo compito di visione e linguaggio che sfida i modelli a ripristinare accuratamente testi parzialmente oscurati utilizzando suggerimenti a livello di pixel all'interno delle immagini. Questo compito nasce dall'osservazione che il testo incorporato nelle immagini è intrinsecamente diverso dagli elementi visivi comuni e dal linguaggio naturale a causa della necessità di allineare le modalità di visione, testo e testo incorporato nelle immagini. Sebbene numerosi lavori abbiano integrato il testo incorporato nelle immagini in compiti di risposta a domande visive, gli approcci a questi compiti si basano generalmente sul riconoscimento ottico dei caratteri o sulla modellazione del linguaggio mascherato, riducendo così il compito principalmente a un'elaborazione basata sul testo. Tuttavia, l'elaborazione basata sul testo diventa inefficace nel VCR poiché il ripristino accurato del testo dipende dalle informazioni combinate provenienti dalle immagini fornite, dal contesto e dai sottili indizi provenienti dalle piccole aree esposte dei testi mascherati. Sviluppiamo una pipeline per generare immagini sintetiche per il compito VCR utilizzando coppie immagine-didascalia, con visibilità regolabile della didascalia per controllare la difficoltà del compito. Con questa pipeline, costruiamo un dataset per VCR chiamato VCR-Wiki utilizzando immagini con didascalie da Wikipedia, comprendente 2,11 milioni di entità in inglese e 346 mila in cinese, in varianti sia facili che difficili. I nostri risultati rivelano che gli attuali modelli di visione e linguaggio sono significativamente inferiori alle prestazioni umane nel compito VCR, e il semplice fine-tuning dei modelli sul nostro dataset non porta a miglioramenti significativi. Rilasciamo VCR-Wiki e il codice di costruzione dei dati per facilitare la ricerca futura.
English
We introduce Visual Caption Restoration (VCR), a novel vision-language task
that challenges models to accurately restore partially obscured texts using
pixel-level hints within images. This task stems from the observation that text
embedded in images is intrinsically different from common visual elements and
natural language due to the need to align the modalities of vision, text, and
text embedded in images. While numerous works have integrated text embedded in
images into visual question-answering tasks, approaches to these tasks
generally rely on optical character recognition or masked language modeling,
thus reducing the task to mainly text-based processing. However, text-based
processing becomes ineffective in VCR as accurate text restoration depends on
the combined information from provided images, context, and subtle cues from
the tiny exposed areas of masked texts. We develop a pipeline to generate
synthetic images for the VCR task using image-caption pairs, with adjustable
caption visibility to control the task difficulty. With this pipeline, we
construct a dataset for VCR called VCR-Wiki using images with captions from
Wikipedia, comprising 2.11M English and 346K Chinese entities in both easy and
hard split variants. Our results reveal that current vision language models
significantly lag behind human performance in the VCR task, and merely
fine-tuning the models on our dataset does not lead to notable improvements. We
release VCR-Wiki and the data construction code to facilitate future research.