Attraverso lo Specchio: Valutazione della Coerenza del Senso Comune nelle Immagini Bizzarre
Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images
May 12, 2025
Autori: Elisei Rykov, Kseniia Petrushina, Kseniia Titova, Anton Razzhigaev, Alexander Panchenko, Vasily Konovalov
cs.AI
Abstract
Misurare quanto siano realistiche le immagini è un compito complesso nella ricerca sull'intelligenza artificiale. Ad esempio, un'immagine di un ragazzo con un aspirapolvere nel deserto viola il senso comune. Introduciamo un nuovo metodo, che chiamiamo Through the Looking Glass (TLG), per valutare la coerenza del senso comune delle immagini utilizzando Modelli Linguistico-Visuali di Grande Scala (LVLMs) e un encoder basato su Transformer. Sfruttando gli LVLMs per estrarre fatti atomici da queste immagini, otteniamo un mix di fatti accurati. Procediamo quindi affinando un classificatore compatto con pooling di attenzione sui fatti atomici codificati. Il nostro TLG ha raggiunto una nuova performance all'avanguardia sui dataset WHOOPS! e WEIRD, pur sfruttando un componente di fine-tuning compatto.
English
Measuring how real images look is a complex task in artificial intelligence
research. For example, an image of a boy with a vacuum cleaner in a desert
violates common sense. We introduce a novel method, which we call Through the
Looking Glass (TLG), to assess image common sense consistency using Large
Vision-Language Models (LVLMs) and Transformer-based encoder. By leveraging
LVLMs to extract atomic facts from these images, we obtain a mix of accurate
facts. We proceed by fine-tuning a compact attention-pooling classifier over
encoded atomic facts. Our TLG has achieved a new state-of-the-art performance
on the WHOOPS! and WEIRD datasets while leveraging a compact fine-tuning
component.