KAFA: Ripensare la comprensione delle immagini pubblicitarie con l'adattamento delle caratteristiche potenziato dalla conoscenza nei modelli visione-linguaggio
KAFA: Rethinking Image Ad Understanding with Knowledge-Augmented Feature Adaptation of Vision-Language Models
May 28, 2023
Autori: Zhiwei Jia, Pradyumna Narayana, Arjun R. Akula, Garima Pruthi, Hao Su, Sugato Basu, Varun Jampani
cs.AI
Abstract
La comprensione delle immagini pubblicitarie è un compito cruciale con ampie applicazioni nel mondo reale. Sebbene sia estremamente impegnativo a causa della presenza di scene atipiche e diversificate, entità del mondo reale e ragionamenti sui testi presenti nelle scene, l'interpretazione delle immagini pubblicitarie è relativamente poco esplorata, specialmente nell'era dei modelli fondazionali visione-linguaggio (VLMs) che presentano un'impressionante generalizzabilità e adattabilità. In questo articolo, conduciamo il primo studio empirico sulla comprensione delle immagini pubblicitarie attraverso l'ottica dei VLMs pre-addestrati. Effettuiamo un benchmark e riveliamo le sfide pratiche nell'adattare questi VLMs alla comprensione delle immagini pubblicitarie. Proponiamo una semplice strategia di adattamento delle feature per fondere efficacemente le informazioni multimodali per le immagini pubblicitarie e la potenziamo ulteriormente con la conoscenza delle entità del mondo reale. Speriamo che il nostro studio attiri maggiore attenzione sulla comprensione delle immagini pubblicitarie, un ambito di grande rilevanza per l'industria pubblicitaria.
English
Image ad understanding is a crucial task with wide real-world applications.
Although highly challenging with the involvement of diverse atypical scenes,
real-world entities, and reasoning over scene-texts, how to interpret image ads
is relatively under-explored, especially in the era of foundational
vision-language models (VLMs) featuring impressive generalizability and
adaptability. In this paper, we perform the first empirical study of image ad
understanding through the lens of pre-trained VLMs. We benchmark and reveal
practical challenges in adapting these VLMs to image ad understanding. We
propose a simple feature adaptation strategy to effectively fuse multimodal
information for image ads and further empower it with knowledge of real-world
entities. We hope our study draws more attention to image ad understanding
which is broadly relevant to the advertising industry.