ChatPaper.aiChatPaper

Através do Espelho: Avaliação de Consistência de Senso Comum em Imagens Estranhas

Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images

May 12, 2025
Autores: Elisei Rykov, Kseniia Petrushina, Kseniia Titova, Anton Razzhigaev, Alexander Panchenko, Vasily Konovalov
cs.AI

Resumo

Medir como as imagens reais parecem é uma tarefa complexa na pesquisa de inteligência artificial. Por exemplo, uma imagem de um menino com um aspirador de pó em um deserto viola o senso comum. Introduzimos um método inovador, que chamamos de Through the Looking Glass (TLG), para avaliar a consistência do senso comum em imagens utilizando Large Vision-Language Models (LVLMs) e um codificador baseado em Transformer. Ao aproveitar os LVLMs para extrair fatos atômicos dessas imagens, obtemos uma mistura de fatos precisos. Prosseguimos ajustando finamente um classificador compacto de pooling de atenção sobre os fatos atômicos codificados. Nosso TLG alcançou um novo desempenho de ponta nos conjuntos de dados WHOOPS! e WEIRD, enquanto utiliza um componente compacto de ajuste fino.
English
Measuring how real images look is a complex task in artificial intelligence research. For example, an image of a boy with a vacuum cleaner in a desert violates common sense. We introduce a novel method, which we call Through the Looking Glass (TLG), to assess image common sense consistency using Large Vision-Language Models (LVLMs) and Transformer-based encoder. By leveraging LVLMs to extract atomic facts from these images, we obtain a mix of accurate facts. We proceed by fine-tuning a compact attention-pooling classifier over encoded atomic facts. Our TLG has achieved a new state-of-the-art performance on the WHOOPS! and WEIRD datasets while leveraging a compact fine-tuning component.
PDF292May 20, 2025