ChatPaper.aiChatPaper

Door de Spiegel: Evaluatie van Gezond Verstand en Consistentie van Vreemde Afbeeldingen

Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images

May 12, 2025
Auteurs: Elisei Rykov, Kseniia Petrushina, Kseniia Titova, Anton Razzhigaev, Alexander Panchenko, Vasily Konovalov
cs.AI

Samenvatting

Het meten van hoe realistisch afbeeldingen eruitzien is een complexe taak in kunstmatige intelligentie-onderzoek. Een afbeelding van een jongen met een stofzuiger in een woestijn gaat bijvoorbeeld in tegen het gezond verstand. We introduceren een nieuwe methode, die we Through the Looking Glass (TLG) noemen, om de consistentie van afbeeldingen met het gezond verstand te beoordelen met behulp van Large Vision-Language Models (LVLMs) en een Transformer-gebaseerde encoder. Door LVLMs te gebruiken om atomische feiten uit deze afbeeldingen te extraheren, verkrijgen we een mix van nauwkeurige feiten. Vervolgens fine-tunen we een compacte aandachtspooling-classificator op gecodeerde atomische feiten. Onze TLG heeft een nieuwe state-of-the-art-prestatie behaald op de WHOOPS!- en WEIRD-datasets, terwijl een compact fine-tuning-component wordt benut.
English
Measuring how real images look is a complex task in artificial intelligence research. For example, an image of a boy with a vacuum cleaner in a desert violates common sense. We introduce a novel method, which we call Through the Looking Glass (TLG), to assess image common sense consistency using Large Vision-Language Models (LVLMs) and Transformer-based encoder. By leveraging LVLMs to extract atomic facts from these images, we obtain a mix of accurate facts. We proceed by fine-tuning a compact attention-pooling classifier over encoded atomic facts. Our TLG has achieved a new state-of-the-art performance on the WHOOPS! and WEIRD datasets while leveraging a compact fine-tuning component.

Summary

AI-Generated Summary

PDF252May 20, 2025