ChatPaper.aiChatPaper

KAFA: Repensando la comprensión de anuncios visuales con adaptación de características aumentada por conocimiento en modelos de visión y lenguaje

KAFA: Rethinking Image Ad Understanding with Knowledge-Augmented Feature Adaptation of Vision-Language Models

May 28, 2023
Autores: Zhiwei Jia, Pradyumna Narayana, Arjun R. Akula, Garima Pruthi, Hao Su, Sugato Basu, Varun Jampani
cs.AI

Resumen

La comprensión de anuncios visuales es una tarea crucial con amplias aplicaciones en el mundo real. Aunque es altamente desafiante debido a la presencia de escenas atípicas diversas, entidades del mundo real y el razonamiento sobre textos en las escenas, la interpretación de anuncios visuales ha sido relativamente poco explorada, especialmente en la era de los modelos fundacionales de visión y lenguaje (VLMs) que destacan por su impresionante generalización y adaptabilidad. En este artículo, realizamos el primer estudio empírico sobre la comprensión de anuncios visuales a través del lente de VLMs preentrenados. Evaluamos y revelamos los desafíos prácticos de adaptar estos VLMs a la comprensión de anuncios visuales. Proponemos una estrategia simple de adaptación de características para fusionar efectivamente la información multimodal en anuncios visuales y la potenciamos aún más con conocimiento de entidades del mundo real. Esperamos que nuestro estudio atraiga más atención hacia la comprensión de anuncios visuales, un área de gran relevancia para la industria publicitaria.
English
Image ad understanding is a crucial task with wide real-world applications. Although highly challenging with the involvement of diverse atypical scenes, real-world entities, and reasoning over scene-texts, how to interpret image ads is relatively under-explored, especially in the era of foundational vision-language models (VLMs) featuring impressive generalizability and adaptability. In this paper, we perform the first empirical study of image ad understanding through the lens of pre-trained VLMs. We benchmark and reveal practical challenges in adapting these VLMs to image ad understanding. We propose a simple feature adaptation strategy to effectively fuse multimodal information for image ads and further empower it with knowledge of real-world entities. We hope our study draws more attention to image ad understanding which is broadly relevant to the advertising industry.
PDF10December 15, 2024