ChatPaper.aiChatPaper

À travers le miroir : Évaluation de la cohérence du bon sens face à des images étranges

Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images

May 12, 2025
Auteurs: Elisei Rykov, Kseniia Petrushina, Kseniia Titova, Anton Razzhigaev, Alexander Panchenko, Vasily Konovalov
cs.AI

Résumé

Mesurer le réalisme des images est une tâche complexe dans la recherche en intelligence artificielle. Par exemple, une image d'un garçon avec un aspirateur dans un désert va à l'encontre du bon sens. Nous introduisons une nouvelle méthode, que nous appelons Through the Looking Glass (TLG), pour évaluer la cohérence des images par rapport au bon sens en utilisant des modèles de vision-langage de grande taille (LVLMs) et un encodeur basé sur des Transformers. En exploitant les LVLMs pour extraire des faits atomiques de ces images, nous obtenons un mélange de faits précis. Nous procédons ensuite au fine-tuning d'un classifieur compact avec mécanisme d'attention sur les faits atomiques encodés. Notre méthode TLG a atteint une performance de pointe sur les ensembles de données WHOOPS! et WEIRD tout en utilisant un composant de fine-tuning compact.
English
Measuring how real images look is a complex task in artificial intelligence research. For example, an image of a boy with a vacuum cleaner in a desert violates common sense. We introduce a novel method, which we call Through the Looking Glass (TLG), to assess image common sense consistency using Large Vision-Language Models (LVLMs) and Transformer-based encoder. By leveraging LVLMs to extract atomic facts from these images, we obtain a mix of accurate facts. We proceed by fine-tuning a compact attention-pooling classifier over encoded atomic facts. Our TLG has achieved a new state-of-the-art performance on the WHOOPS! and WEIRD datasets while leveraging a compact fine-tuning component.

Summary

AI-Generated Summary

PDF142May 20, 2025