CrossWordBench: Avaliando as Capacidades de Raciocínio de LLMs e LVLMs com Geração Controlada de Quebra-Cabeças
CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation
March 30, 2025
Autores: Jixuan Leng, Chengsong Huang, Langlin Huang, Bill Yuchen Lin, William W. Cohen, Haohan Wang, Jiaxin Huang
cs.AI
Resumo
Os frameworks existentes de avaliação de raciocínio para Modelos de Linguagem de Grande Escala (LLMs) e Modelos de Linguagem-Visão de Grande Escala (LVLMs) avaliam predominantemente o raciocínio baseado em texto ou as capacidades de compreensão de linguagem-visão, com uma interação dinâmica limitada entre restrições textuais e visuais. Para abordar essa limitação, introduzimos o CrossWordBench, um benchmark projetado para avaliar as capacidades de raciocínio de LLMs e LVLMs por meio de quebra-cabeças de palavras cruzadas—uma tarefa que exige aderência multimodal a restrições semânticas de pistas baseadas em texto e restrições interseccionais de estruturas de grade visual. O CrossWordBench utiliza um framework controlável de geração de quebra-cabeças que produz puzzles em múltiplos formatos (texto e imagem) e oferece diferentes estratégias de avaliação, desde a resolução direta de puzzles até modos interativos. Nossa extensa avaliação de mais de 20 modelos revela que LLMs de raciocínio superam substancialmente modelos sem raciocínio ao aproveitar efetivamente as restrições de letras cruzadas. Demonstramos ainda que LVLMs têm dificuldades com a tarefa, mostrando uma forte correlação entre seu desempenho na resolução de puzzles e a precisão na análise de grades. Nossas descobertas oferecem insights sobre as limitações das capacidades de raciocínio dos LLMs e LVLMs atuais e fornecem uma abordagem eficaz para a criação de tarefas multimodais com restrições para avaliações futuras.
English
Existing reasoning evaluation frameworks for Large Language Models (LLMs) and
Large Vision-Language Models (LVLMs) predominantly either assess text-based
reasoning or vision-language understanding capabilities, with limited dynamic
interplay between textual and visual constraints. To address this limitation,
we introduce CrossWordBench, a benchmark designed to evaluate the reasoning
capabilities of both LLMs and LVLMs through the medium of crossword puzzles-a
task requiring multimodal adherence to semantic constraints from text-based
clues and intersectional constraints from visual grid structures.
CrossWordBench leverages a controllable puzzle generation framework that
produces puzzles in multiple formats (text and image) and offers different
evaluation strategies ranging from direct puzzle solving to interactive modes.
Our extensive evaluation of over 20 models reveals that reasoning LLMs
outperform non-reasoning models substantially by effectively leveraging
crossing-letter constraints. We further demonstrate that LVLMs struggle with
the task, showing a strong correlation between their puzzle-solving performance
and grid-parsing accuracy. Our findings offer insights into the limitations of
the reasoning capabilities of current LLMs and LVLMs, and provide an effective
approach for creating multimodal constrained tasks for future evaluations.Summary
AI-Generated Summary