ChatPaper.aiChatPaper

KAFA: Neubetrachtung des Bildwerbeverständnisses durch wissensgestützte Feature-Adaptation von Vision-Sprache-Modellen

KAFA: Rethinking Image Ad Understanding with Knowledge-Augmented Feature Adaptation of Vision-Language Models

May 28, 2023
Autoren: Zhiwei Jia, Pradyumna Narayana, Arjun R. Akula, Garima Pruthi, Hao Su, Sugato Basu, Varun Jampani
cs.AI

Zusammenfassung

Das Verständnis von Bildwerbung ist eine entscheidende Aufgabe mit breiten Anwendungen in der realen Welt. Obwohl es aufgrund der Einbeziehung vielfältiger atypischer Szenen, realer Entitäten und der Schlussfolgerung über Szenentexte äußerst herausfordernd ist, wurde die Interpretation von Bildwerbung bisher relativ wenig erforscht, insbesondere im Zeitalter der grundlegenden Vision-Sprache-Modelle (VLMs), die durch beeindruckende Generalisierbarkeit und Anpassungsfähigkeit gekennzeichnet sind. In diesem Papier führen wir die erste empirische Studie zum Verständnis von Bildwerbung durch die Linse vortrainierter VLMs durch. Wir benchmarken und enthüllen praktische Herausforderungen bei der Anpassung dieser VLMs an das Verständnis von Bildwerbung. Wir schlagen eine einfache Feature-Anpassungsstrategie vor, um multimodale Informationen für Bildwerbung effektiv zu fusionieren und sie weiter mit Wissen über reale Entitäten zu stärken. Wir hoffen, dass unsere Studie mehr Aufmerksamkeit auf das Verständnis von Bildwerbung lenkt, das für die Werbebranche von großer Relevanz ist.
English
Image ad understanding is a crucial task with wide real-world applications. Although highly challenging with the involvement of diverse atypical scenes, real-world entities, and reasoning over scene-texts, how to interpret image ads is relatively under-explored, especially in the era of foundational vision-language models (VLMs) featuring impressive generalizability and adaptability. In this paper, we perform the first empirical study of image ad understanding through the lens of pre-trained VLMs. We benchmark and reveal practical challenges in adapting these VLMs to image ad understanding. We propose a simple feature adaptation strategy to effectively fuse multimodal information for image ads and further empower it with knowledge of real-world entities. We hope our study draws more attention to image ad understanding which is broadly relevant to the advertising industry.
PDF10December 15, 2024