ChatPaper.aiChatPaper

Perplessi di fronte agli enigmi: quando i modelli visione-linguaggio non colgono l'indizio

Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint

May 29, 2025
Autori: Heekyung Lee, Jiaxin Ge, Tsung-Han Wu, Minwoo Kang, Trevor Darrell, David M. Chan
cs.AI

Abstract

I rebus, enigmi visivi che codificano il linguaggio attraverso immagini, disposizione spaziale e sostituzione simbolica, rappresentano una sfida unica per gli attuali modelli visione-linguaggio (VLMs). A differenza dei tradizionali compiti di descrizione delle immagini o di risposta alle domande, la risoluzione dei rebus richiede astrazione multimodale, ragionamento simbolico e una comprensione di giochi di parole culturali, fonetici e linguistici. In questo articolo, indaghiamo la capacità dei VLMs contemporanei di interpretare e risolvere rebus costruendo un benchmark generato e annotato manualmente di vari rebus in lingua inglese, che spaziano da semplici sostituzioni pittografiche a indizi dipendenti dalla disposizione spaziale ("testa" sopra "talloni"). Analizziamo le prestazioni di diversi VLMs, e i nostri risultati rivelano che, sebbene i VLMs mostrino alcune sorprendenti capacità nel decodificare indizi visivi semplici, hanno notevoli difficoltà con compiti che richiedono ragionamento astratto, pensiero laterale e comprensione di metafore visive.
English
Rebus puzzles, visual riddles that encode language through imagery, spatial arrangement, and symbolic substitution, pose a unique challenge to current vision-language models (VLMs). Unlike traditional image captioning or question answering tasks, rebus solving requires multi-modal abstraction, symbolic reasoning, and a grasp of cultural, phonetic and linguistic puns. In this paper, we investigate the capacity of contemporary VLMs to interpret and solve rebus puzzles by constructing a hand-generated and annotated benchmark of diverse English-language rebus puzzles, ranging from simple pictographic substitutions to spatially-dependent cues ("head" over "heels"). We analyze how different VLMs perform, and our findings reveal that while VLMs exhibit some surprising capabilities in decoding simple visual clues, they struggle significantly with tasks requiring abstract reasoning, lateral thinking, and understanding visual metaphors.
PDF62May 30, 2025