Attraverso lo Specchio: Valutazione della Coerenza del Senso Comune nelle Immagini Bizzarre

Abstract

Misurare quanto siano realistiche le immagini è un compito complesso nella ricerca sull'intelligenza artificiale. Ad esempio, un'immagine di un ragazzo con un aspirapolvere nel deserto viola il senso comune. Introduciamo un nuovo metodo, che chiamiamo Through the Looking Glass (TLG), per valutare la coerenza del senso comune delle immagini utilizzando Modelli Linguistico-Visuali di Grande Scala (LVLMs) e un encoder basato su Transformer. Sfruttando gli LVLMs per estrarre fatti atomici da queste immagini, otteniamo un mix di fatti accurati. Procediamo quindi affinando un classificatore compatto con pooling di attenzione sui fatti atomici codificati. Il nostro TLG ha raggiunto una nuova performance all'avanguardia sui dataset WHOOPS! e WEIRD, pur sfruttando un componente di fine-tuning compatto.

English

Measuring how real images look is a complex task in artificial intelligence research. For example, an image of a boy with a vacuum cleaner in a desert violates common sense. We introduce a novel method, which we call Through the Looking Glass (TLG), to assess image common sense consistency using Large Vision-Language Models (LVLMs) and Transformer-based encoder. By leveraging LVLMs to extract atomic facts from these images, we obtain a mix of accurate facts. We proceed by fine-tuning a compact attention-pooling classifier over encoded atomic facts. Our TLG has achieved a new state-of-the-art performance on the WHOOPS! and WEIRD datasets while leveraging a compact fine-tuning component.

Attraverso lo Specchio: Valutazione della Coerenza del Senso Comune nelle Immagini Bizzarre

Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images

Abstract

Support