KAFA: Ripensare la comprensione delle immagini pubblicitarie con l'adattamento delle caratteristiche potenziato dalla conoscenza nei modelli visione-linguaggio

Abstract

La comprensione delle immagini pubblicitarie è un compito cruciale con ampie applicazioni nel mondo reale. Sebbene sia estremamente impegnativo a causa della presenza di scene atipiche e diversificate, entità del mondo reale e ragionamenti sui testi presenti nelle scene, l'interpretazione delle immagini pubblicitarie è relativamente poco esplorata, specialmente nell'era dei modelli fondazionali visione-linguaggio (VLMs) che presentano un'impressionante generalizzabilità e adattabilità. In questo articolo, conduciamo il primo studio empirico sulla comprensione delle immagini pubblicitarie attraverso l'ottica dei VLMs pre-addestrati. Effettuiamo un benchmark e riveliamo le sfide pratiche nell'adattare questi VLMs alla comprensione delle immagini pubblicitarie. Proponiamo una semplice strategia di adattamento delle feature per fondere efficacemente le informazioni multimodali per le immagini pubblicitarie e la potenziamo ulteriormente con la conoscenza delle entità del mondo reale. Speriamo che il nostro studio attiri maggiore attenzione sulla comprensione delle immagini pubblicitarie, un ambito di grande rilevanza per l'industria pubblicitaria.

English

Image ad understanding is a crucial task with wide real-world applications. Although highly challenging with the involvement of diverse atypical scenes, real-world entities, and reasoning over scene-texts, how to interpret image ads is relatively under-explored, especially in the era of foundational vision-language models (VLMs) featuring impressive generalizability and adaptability. In this paper, we perform the first empirical study of image ad understanding through the lens of pre-trained VLMs. We benchmark and reveal practical challenges in adapting these VLMs to image ad understanding. We propose a simple feature adaptation strategy to effectively fuse multimodal information for image ads and further empower it with knowledge of real-world entities. We hope our study draws more attention to image ad understanding which is broadly relevant to the advertising industry.

KAFA: Ripensare la comprensione delle immagini pubblicitarie con l'adattamento delle caratteristiche potenziato dalla conoscenza nei modelli visione-linguaggio

KAFA: Rethinking Image Ad Understanding with Knowledge-Augmented Feature Adaptation of Vision-Language Models

Abstract

Support