ChatPaper.aiChatPaper

Durch den Spiegel: Bewertung der gesunden Menschenverstands-Konsistenz von seltsamen Bildern

Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images

May 12, 2025
Autoren: Elisei Rykov, Kseniia Petrushina, Kseniia Titova, Anton Razzhigaev, Alexander Panchenko, Vasily Konovalov
cs.AI

Zusammenfassung

Die Messung, wie realistisch Bilder aussehen, ist eine komplexe Aufgabe in der Forschung zur künstlichen Intelligenz. Beispielsweise verstößt ein Bild eines Jungen mit einem Staubsauger in einer Wüste gegen den gesunden Menschenverstand. Wir stellen eine neuartige Methode vor, die wir „Through the Looking Glass“ (TLG) nennen, um die Konsistenz von Bildern mit dem gesunden Menschenverstand mithilfe von Large Vision-Language Models (LVLMs) und einem Transformer-basierten Encoder zu bewerten. Indem wir LVLMs nutzen, um atomare Fakten aus diesen Bildern zu extrahieren, erhalten wir eine Mischung aus präzisen Fakten. Anschließend feintunen wir einen kompakten Attention-Pooling-Klassifikator über die kodierten atomaren Fakten. Unser TLG hat eine neue Bestleistung auf den WHOOPS!- und WEIRD-Datensätzen erreicht, während es eine kompakte Feintuning-Komponente nutzt.
English
Measuring how real images look is a complex task in artificial intelligence research. For example, an image of a boy with a vacuum cleaner in a desert violates common sense. We introduce a novel method, which we call Through the Looking Glass (TLG), to assess image common sense consistency using Large Vision-Language Models (LVLMs) and Transformer-based encoder. By leveraging LVLMs to extract atomic facts from these images, we obtain a mix of accurate facts. We proceed by fine-tuning a compact attention-pooling classifier over encoded atomic facts. Our TLG has achieved a new state-of-the-art performance on the WHOOPS! and WEIRD datasets while leveraging a compact fine-tuning component.

Summary

AI-Generated Summary

PDF142May 20, 2025