CrossWordBench: Het evalueren van de redeneervaardigheden van LLM's en LVLM's met controleerbare puzzelgeneratie
CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation
March 30, 2025
Auteurs: Jixuan Leng, Chengsong Huang, Langlin Huang, Bill Yuchen Lin, William W. Cohen, Haohan Wang, Jiaxin Huang
cs.AI
Samenvatting
Bestaande evaluatiekaders voor redeneervaardigheden van Large Language Models (LLMs) en Large Vision-Language Models (LVLMs) richten zich voornamelijk op het beoordelen van tekstgebaseerd redeneren of visueel-taalkundig begrip, met beperkte dynamische interactie tussen tekstuele en visuele beperkingen. Om deze beperking aan te pakken, introduceren we CrossWordBench, een benchmark ontworpen om de redeneervaardigheden van zowel LLMs als LVLMs te evalueren via het medium van kruiswoordpuzzels—een taak die multimodale naleving vereist van semantische beperkingen uit tekstgebaseerde aanwijzingen en kruisende beperkingen uit visuele rasterstructuren. CrossWordBench maakt gebruik van een controleerbaar puzzelgeneratieframework dat puzzels produceert in meerdere formaten (tekst en afbeelding) en biedt verschillende evaluatiestrategieën, variërend van direct puzzeloplossen tot interactieve modi. Onze uitgebreide evaluatie van meer dan 20 modellen toont aan dat redenerende LLMs niet-redenerende modellen aanzienlijk overtreffen door effectief gebruik te maken van kruisende-letterbeperkingen. We laten verder zien dat LVLMs moeite hebben met de taak, waarbij een sterke correlatie wordt aangetoond tussen hun puzzeloplossende prestaties en de nauwkeurigheid van rasterparsing. Onze bevindingen bieden inzichten in de beperkingen van de redeneervaardigheden van huidige LLMs en LVLMs, en bieden een effectieve aanpak voor het creëren van multimodale beperkte taken voor toekomstige evaluaties.
English
Existing reasoning evaluation frameworks for Large Language Models (LLMs) and
Large Vision-Language Models (LVLMs) predominantly either assess text-based
reasoning or vision-language understanding capabilities, with limited dynamic
interplay between textual and visual constraints. To address this limitation,
we introduce CrossWordBench, a benchmark designed to evaluate the reasoning
capabilities of both LLMs and LVLMs through the medium of crossword puzzles-a
task requiring multimodal adherence to semantic constraints from text-based
clues and intersectional constraints from visual grid structures.
CrossWordBench leverages a controllable puzzle generation framework that
produces puzzles in multiple formats (text and image) and offers different
evaluation strategies ranging from direct puzzle solving to interactive modes.
Our extensive evaluation of over 20 models reveals that reasoning LLMs
outperform non-reasoning models substantially by effectively leveraging
crossing-letter constraints. We further demonstrate that LVLMs struggle with
the task, showing a strong correlation between their puzzle-solving performance
and grid-parsing accuracy. Our findings offer insights into the limitations of
the reasoning capabilities of current LLMs and LVLMs, and provide an effective
approach for creating multimodal constrained tasks for future evaluations.