ChatPaper.aiChatPaper

За зеркалом: оценка согласованности здравого смысла для странных изображений

Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images

May 12, 2025
Авторы: Elisei Rykov, Kseniia Petrushina, Kseniia Titova, Anton Razzhigaev, Alexander Panchenko, Vasily Konovalov
cs.AI

Аннотация

Измерение реалистичности изображений является сложной задачей в исследованиях искусственного интеллекта. Например, изображение мальчика с пылесосом в пустыне нарушает здравый смысл. Мы представляем новый метод, который называем Through the Looking Glass (TLG), для оценки согласованности изображений с точки зрения здравого смысла с использованием крупных визуально-языковых моделей (LVLMs) и трансформерного энкодера. Используя LVLMs для извлечения атомарных фактов из этих изображений, мы получаем набор точных фактов. Затем мы проводим тонкую настройку компактного классификатора с пулингом внимания на закодированных атомарных фактах. Наш метод TLG достиг нового уровня производительности на наборах данных WHOOPS! и WEIRD, используя компактный компонент тонкой настройки.
English
Measuring how real images look is a complex task in artificial intelligence research. For example, an image of a boy with a vacuum cleaner in a desert violates common sense. We introduce a novel method, which we call Through the Looking Glass (TLG), to assess image common sense consistency using Large Vision-Language Models (LVLMs) and Transformer-based encoder. By leveraging LVLMs to extract atomic facts from these images, we obtain a mix of accurate facts. We proceed by fine-tuning a compact attention-pooling classifier over encoded atomic facts. Our TLG has achieved a new state-of-the-art performance on the WHOOPS! and WEIRD datasets while leveraging a compact fine-tuning component.

Summary

AI-Generated Summary

PDF132May 20, 2025