VCR : Restauration Visuelle de Légendes
VCR: Visual Caption Restoration
June 10, 2024
Auteurs: Tianyu Zhang, Suyuchen Wang, Lu Li, Ge Zhang, Perouz Taslakian, Sai Rajeswar, Jie Fu, Bang Liu, Yoshua Bengio
cs.AI
Résumé
Nous introduisons la Restauration de Légendes Visuelles (Visual Caption Restoration, VCR), une nouvelle tâche vision-langage qui consiste à restaurer avec précision des textes partiellement obscurcis en utilisant des indices au niveau des pixels dans les images. Cette tâche découle de l'observation que les textes intégrés dans les images diffèrent intrinsèquement des éléments visuels courants et du langage naturel, en raison de la nécessité d'aligner les modalités de la vision, du texte et du texte intégré dans les images. Bien que de nombreux travaux aient intégré des textes dans des images pour des tâches de question-réponse visuelle, les approches utilisées reposent généralement sur la reconnaissance optique de caractères ou le modèle de langage masqué, réduisant ainsi la tâche à un traitement principalement basé sur le texte. Cependant, le traitement basé sur le texte devient inefficace dans VCR, car la restauration précise du texte dépend des informations combinées provenant des images fournies, du contexte et des indices subtils des petites zones exposées des textes masqués. Nous développons un pipeline pour générer des images synthétiques pour la tâche VCR en utilisant des paires image-légende, avec une visibilité ajustable des légendes pour contrôler la difficulté de la tâche. Avec ce pipeline, nous construisons un ensemble de données pour VCR appelé VCR-Wiki en utilisant des images avec légendes provenant de Wikipédia, comprenant 2,11 millions d'entités en anglais et 346 000 en chinois, dans des variantes faciles et difficiles. Nos résultats révèlent que les modèles actuels de vision-langage sont nettement en retard par rapport aux performances humaines dans la tâche VCR, et que le simple affinement des modèles sur notre ensemble de données ne conduit pas à des améliorations notables. Nous publions VCR-Wiki et le code de construction des données pour faciliter les recherches futures.
English
We introduce Visual Caption Restoration (VCR), a novel vision-language task
that challenges models to accurately restore partially obscured texts using
pixel-level hints within images. This task stems from the observation that text
embedded in images is intrinsically different from common visual elements and
natural language due to the need to align the modalities of vision, text, and
text embedded in images. While numerous works have integrated text embedded in
images into visual question-answering tasks, approaches to these tasks
generally rely on optical character recognition or masked language modeling,
thus reducing the task to mainly text-based processing. However, text-based
processing becomes ineffective in VCR as accurate text restoration depends on
the combined information from provided images, context, and subtle cues from
the tiny exposed areas of masked texts. We develop a pipeline to generate
synthetic images for the VCR task using image-caption pairs, with adjustable
caption visibility to control the task difficulty. With this pipeline, we
construct a dataset for VCR called VCR-Wiki using images with captions from
Wikipedia, comprising 2.11M English and 346K Chinese entities in both easy and
hard split variants. Our results reveal that current vision language models
significantly lag behind human performance in the VCR task, and merely
fine-tuning the models on our dataset does not lead to notable improvements. We
release VCR-Wiki and the data construction code to facilitate future research.Summary
AI-Generated Summary