CrossWordBench: 制御可能なパズル生成によるLLMとLVLMの推論能力の評価
CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation
March 30, 2025
著者: Jixuan Leng, Chengsong Huang, Langlin Huang, Bill Yuchen Lin, William W. Cohen, Haohan Wang, Jiaxin Huang
cs.AI
要旨
既存の大規模言語モデル(LLMs)および大規模視覚言語モデル(LVLMs)の推論評価フレームワークは、主にテキストベースの推論能力または視覚言語理解能力を評価するものであり、テキストと視覚的制約の間の動的な相互作用は限定的です。この制約に対処するため、我々はCrossWordBenchを導入します。これは、クロスワードパズルという媒体を通じてLLMsとLVLMsの推論能力を評価するためのベンチマークです。クロスワードパズルは、テキストベースのヒントからの意味的制約と視覚的グリッド構造からの交差制約に従うマルチモーダルなタスクを必要とします。CrossWordBenchは、複数の形式(テキストと画像)でパズルを生成する制御可能なパズル生成フレームワークを活用し、直接的なパズル解決からインタラクティブモードまでさまざまな評価戦略を提供します。20以上のモデルに対する広範な評価により、推論LLMsが交差文字制約を効果的に活用することで非推論モデルを大幅に上回ることが明らかになりました。さらに、LVLMsがこのタスクに苦戦し、パズル解決性能とグリッド解析精度の間に強い相関があることが示されました。我々の知見は、現在のLLMsとLVLMsの推論能力の限界を明らかにし、将来の評価のためのマルチモーダル制約タスクを作成するための効果的なアプローチを提供します。
English
Existing reasoning evaluation frameworks for Large Language Models (LLMs) and
Large Vision-Language Models (LVLMs) predominantly either assess text-based
reasoning or vision-language understanding capabilities, with limited dynamic
interplay between textual and visual constraints. To address this limitation,
we introduce CrossWordBench, a benchmark designed to evaluate the reasoning
capabilities of both LLMs and LVLMs through the medium of crossword puzzles-a
task requiring multimodal adherence to semantic constraints from text-based
clues and intersectional constraints from visual grid structures.
CrossWordBench leverages a controllable puzzle generation framework that
produces puzzles in multiple formats (text and image) and offers different
evaluation strategies ranging from direct puzzle solving to interactive modes.
Our extensive evaluation of over 20 models reveals that reasoning LLMs
outperform non-reasoning models substantially by effectively leveraging
crossing-letter constraints. We further demonstrate that LVLMs struggle with
the task, showing a strong correlation between their puzzle-solving performance
and grid-parsing accuracy. Our findings offer insights into the limitations of
the reasoning capabilities of current LLMs and LVLMs, and provide an effective
approach for creating multimodal constrained tasks for future evaluations.Summary
AI-Generated Summary