CrossWordBench: Evaluación de las Capacidades de Razonamiento de LLMs y LVLMs mediante la Generación Controlada de Rompecabezas
CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation
March 30, 2025
Autores: Jixuan Leng, Chengsong Huang, Langlin Huang, Bill Yuchen Lin, William W. Cohen, Haohan Wang, Jiaxin Huang
cs.AI
Resumen
Los marcos de evaluación de razonamiento existentes para los Modelos de Lenguaje de Gran Escala (LLMs) y los Modelos de Visión-Lenguaje de Gran Escala (LVLMs) se centran predominantemente en evaluar el razonamiento basado en texto o las capacidades de comprensión visión-lenguaje, con una interacción dinámica limitada entre las restricciones textuales y visuales. Para abordar esta limitación, presentamos CrossWordBench, un punto de referencia diseñado para evaluar las capacidades de razonamiento tanto de LLMs como de LVLMs a través del medio de crucigramas, una tarea que requiere la adherencia multimodal a restricciones semánticas de pistas basadas en texto y restricciones interseccionales de estructuras de cuadrículas visuales. CrossWordBench aprovecha un marco de generación de crucigramas controlable que produce crucigramas en múltiples formatos (texto e imagen) y ofrece diferentes estrategias de evaluación, desde la resolución directa de crucigramas hasta modos interactivos. Nuestra evaluación extensiva de más de 20 modelos revela que los LLMs de razonamiento superan sustancialmente a los modelos no razonadores al aprovechar eficazmente las restricciones de letras cruzadas. Además, demostramos que los LVLMs tienen dificultades con la tarea, mostrando una fuerte correlación entre su rendimiento en la resolución de crucigramas y la precisión en el análisis de la cuadrícula. Nuestros hallazgos ofrecen información sobre las limitaciones de las capacidades de razonamiento de los LLMs y LVLMs actuales, y proporcionan un enfoque efectivo para la creación de tareas multimodales con restricciones para futuras evaluaciones.
English
Existing reasoning evaluation frameworks for Large Language Models (LLMs) and
Large Vision-Language Models (LVLMs) predominantly either assess text-based
reasoning or vision-language understanding capabilities, with limited dynamic
interplay between textual and visual constraints. To address this limitation,
we introduce CrossWordBench, a benchmark designed to evaluate the reasoning
capabilities of both LLMs and LVLMs through the medium of crossword puzzles-a
task requiring multimodal adherence to semantic constraints from text-based
clues and intersectional constraints from visual grid structures.
CrossWordBench leverages a controllable puzzle generation framework that
produces puzzles in multiple formats (text and image) and offers different
evaluation strategies ranging from direct puzzle solving to interactive modes.
Our extensive evaluation of over 20 models reveals that reasoning LLMs
outperform non-reasoning models substantially by effectively leveraging
crossing-letter constraints. We further demonstrate that LVLMs struggle with
the task, showing a strong correlation between their puzzle-solving performance
and grid-parsing accuracy. Our findings offer insights into the limitations of
the reasoning capabilities of current LLMs and LVLMs, and provide an effective
approach for creating multimodal constrained tasks for future evaluations.Summary
AI-Generated Summary