KAFA: Heroverweging van beeldadvertentiebegrip met kennis-augmentatieve feature-aanpassing van visie-taalmodellen
KAFA: Rethinking Image Ad Understanding with Knowledge-Augmented Feature Adaptation of Vision-Language Models
May 28, 2023
Auteurs: Zhiwei Jia, Pradyumna Narayana, Arjun R. Akula, Garima Pruthi, Hao Su, Sugato Basu, Varun Jampani
cs.AI
Samenvatting
Het begrijpen van beeldadvertenties is een cruciale taak met brede toepassingen in de praktijk. Hoewel het zeer uitdagend is vanwege de betrokkenheid van diverse atypische scènes, real-world entiteiten en redeneren over scèneteksten, is het interpreteren van beeldadvertenties relatief onderbelicht, vooral in het tijdperk van fundamentele visie-taalmodellen (VLMs) die indrukwekkende generaliseerbaarheid en aanpassingsvermogen vertonen. In dit artikel voeren we de eerste empirische studie uit naar het begrijpen van beeldadvertenties door de lens van vooraf getrainde VLMs. We benchmarken en onthullen praktische uitdagingen bij het aanpassen van deze VLMs aan het begrijpen van beeldadvertenties. We stellen een eenvoudige strategie voor feature-aanpassing voor om multimodale informatie effectief te integreren voor beeldadvertenties en versterken deze verder met kennis van real-world entiteiten. We hopen dat onze studie meer aandacht trekt voor het begrijpen van beeldadvertenties, wat breed relevant is voor de advertentie-industrie.
English
Image ad understanding is a crucial task with wide real-world applications.
Although highly challenging with the involvement of diverse atypical scenes,
real-world entities, and reasoning over scene-texts, how to interpret image ads
is relatively under-explored, especially in the era of foundational
vision-language models (VLMs) featuring impressive generalizability and
adaptability. In this paper, we perform the first empirical study of image ad
understanding through the lens of pre-trained VLMs. We benchmark and reveal
practical challenges in adapting these VLMs to image ad understanding. We
propose a simple feature adaptation strategy to effectively fuse multimodal
information for image ads and further empower it with knowledge of real-world
entities. We hope our study draws more attention to image ad understanding
which is broadly relevant to the advertising industry.