CrossWordBench: Valutazione delle Capacità di Ragionamento di LLM e LVLM con Generazione Controllata di Puzzle
CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation
March 30, 2025
Autori: Jixuan Leng, Chengsong Huang, Langlin Huang, Bill Yuchen Lin, William W. Cohen, Haohan Wang, Jiaxin Huang
cs.AI
Abstract
I framework esistenti per la valutazione del ragionamento nei Large Language Models (LLMs) e nei Large Vision-Language Models (LVLMs) si concentrano prevalentemente sulla valutazione del ragionamento basato su testo o sulla comprensione multimodale di testo e immagini, con un'interazione dinamica limitata tra vincoli testuali e visivi. Per affrontare questa limitazione, introduciamo CrossWordBench, un benchmark progettato per valutare le capacità di ragionamento sia degli LLMs che dei LVLMs attraverso il medium dei cruciverba—un'attività che richiede l'aderenza a vincoli semantici derivati da indizi testuali e a vincoli intersezionali derivati dalla struttura visiva della griglia.
CrossWordBench sfrutta un framework controllabile per la generazione di puzzle che produce enigmi in più formati (testo e immagine) e offre diverse strategie di valutazione, dalla risoluzione diretta dei puzzle a modalità interattive. La nostra valutazione estensiva di oltre 20 modelli rivela che gli LLMs specializzati nel ragionamento superano significativamente i modelli non specializzati, sfruttando efficacemente i vincoli delle lettere incrociate. Dimostriamo inoltre che i LVLMs faticano in questo compito, mostrando una forte correlazione tra le loro prestazioni nella risoluzione dei puzzle e l'accuratezza nell'analisi della griglia. I nostri risultati offrono approfondimenti sui limiti delle capacità di ragionamento degli attuali LLMs e LVLMs e forniscono un approccio efficace per la creazione di task multimodali vincolati per future valutazioni.
English
Existing reasoning evaluation frameworks for Large Language Models (LLMs) and
Large Vision-Language Models (LVLMs) predominantly either assess text-based
reasoning or vision-language understanding capabilities, with limited dynamic
interplay between textual and visual constraints. To address this limitation,
we introduce CrossWordBench, a benchmark designed to evaluate the reasoning
capabilities of both LLMs and LVLMs through the medium of crossword puzzles-a
task requiring multimodal adherence to semantic constraints from text-based
clues and intersectional constraints from visual grid structures.
CrossWordBench leverages a controllable puzzle generation framework that
produces puzzles in multiple formats (text and image) and offers different
evaluation strategies ranging from direct puzzle solving to interactive modes.
Our extensive evaluation of over 20 models reveals that reasoning LLMs
outperform non-reasoning models substantially by effectively leveraging
crossing-letter constraints. We further demonstrate that LVLMs struggle with
the task, showing a strong correlation between their puzzle-solving performance
and grid-parsing accuracy. Our findings offer insights into the limitations of
the reasoning capabilities of current LLMs and LVLMs, and provide an effective
approach for creating multimodal constrained tasks for future evaluations.Summary
AI-Generated Summary