KAFA: Heroverweging van beeldadvertentiebegrip met kennis-augmentatieve feature-aanpassing van visie-taalmodellen

Samenvatting

Het begrijpen van beeldadvertenties is een cruciale taak met brede toepassingen in de praktijk. Hoewel het zeer uitdagend is vanwege de betrokkenheid van diverse atypische scènes, real-world entiteiten en redeneren over scèneteksten, is het interpreteren van beeldadvertenties relatief onderbelicht, vooral in het tijdperk van fundamentele visie-taalmodellen (VLMs) die indrukwekkende generaliseerbaarheid en aanpassingsvermogen vertonen. In dit artikel voeren we de eerste empirische studie uit naar het begrijpen van beeldadvertenties door de lens van vooraf getrainde VLMs. We benchmarken en onthullen praktische uitdagingen bij het aanpassen van deze VLMs aan het begrijpen van beeldadvertenties. We stellen een eenvoudige strategie voor feature-aanpassing voor om multimodale informatie effectief te integreren voor beeldadvertenties en versterken deze verder met kennis van real-world entiteiten. We hopen dat onze studie meer aandacht trekt voor het begrijpen van beeldadvertenties, wat breed relevant is voor de advertentie-industrie.

English

Image ad understanding is a crucial task with wide real-world applications. Although highly challenging with the involvement of diverse atypical scenes, real-world entities, and reasoning over scene-texts, how to interpret image ads is relatively under-explored, especially in the era of foundational vision-language models (VLMs) featuring impressive generalizability and adaptability. In this paper, we perform the first empirical study of image ad understanding through the lens of pre-trained VLMs. We benchmark and reveal practical challenges in adapting these VLMs to image ad understanding. We propose a simple feature adaptation strategy to effectively fuse multimodal information for image ads and further empower it with knowledge of real-world entities. We hope our study draws more attention to image ad understanding which is broadly relevant to the advertising industry.

KAFA: Heroverweging van beeldadvertentiebegrip met kennis-augmentatieve feature-aanpassing van visie-taalmodellen

KAFA: Rethinking Image Ad Understanding with Knowledge-Augmented Feature Adaptation of Vision-Language Models

Samenvatting

Support