ChatPaper.aiChatPaper

A través del espejo: Evaluación de la consistencia del sentido común en imágenes extrañas

Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images

May 12, 2025
Autores: Elisei Rykov, Kseniia Petrushina, Kseniia Titova, Anton Razzhigaev, Alexander Panchenko, Vasily Konovalov
cs.AI

Resumen

Medir cómo se ven las imágenes reales es una tarea compleja en la investigación de inteligencia artificial. Por ejemplo, una imagen de un niño con una aspiradora en un desierto viola el sentido común. Introducimos un método novedoso, al que llamamos Through the Looking Glass (TLG), para evaluar la consistencia del sentido común en imágenes utilizando Modelos de Visión y Lenguaje a Gran Escala (LVLMs, por sus siglas en inglés) y un codificador basado en Transformers. Al aprovechar los LVLMs para extraer hechos atómicos de estas imágenes, obtenemos una mezcla de hechos precisos. Procedemos ajustando un clasificador compacto de agrupación de atención sobre los hechos atómicos codificados. Nuestro TLG ha logrado un nuevo rendimiento de vanguardia en los conjuntos de datos WHOOPS! y WEIRD, mientras aprovecha un componente compacto de ajuste fino.
English
Measuring how real images look is a complex task in artificial intelligence research. For example, an image of a boy with a vacuum cleaner in a desert violates common sense. We introduce a novel method, which we call Through the Looking Glass (TLG), to assess image common sense consistency using Large Vision-Language Models (LVLMs) and Transformer-based encoder. By leveraging LVLMs to extract atomic facts from these images, we obtain a mix of accurate facts. We proceed by fine-tuning a compact attention-pooling classifier over encoded atomic facts. Our TLG has achieved a new state-of-the-art performance on the WHOOPS! and WEIRD datasets while leveraging a compact fine-tuning component.

Summary

AI-Generated Summary

PDF142May 20, 2025