CrossWordBench: Оценка способностей к рассуждению LLM и LVLM с помощью контролируемой генерации головоломок
CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation
March 30, 2025
Авторы: Jixuan Leng, Chengsong Huang, Langlin Huang, Bill Yuchen Lin, William W. Cohen, Haohan Wang, Jiaxin Huang
cs.AI
Аннотация
Существующие системы оценки способностей к рассуждению для крупных языковых моделей (LLM) и крупных визуально-языковых моделей (LVLM) в основном сосредоточены либо на оценке текстового рассуждения, либо на понимании визуально-языковых данных, с ограниченным динамическим взаимодействием между текстовыми и визуальными ограничениями. Чтобы устранить этот недостаток, мы представляем CrossWordBench — эталонный тест, предназначенный для оценки способностей к рассуждению как LLM, так и LVLM через решение кроссвордов — задачи, требующей многомодального соблюдения семантических ограничений, основанных на текстовых подсказках, и пересекающихся ограничений, связанных с визуальной структурой сетки. CrossWordBench использует управляемую систему генерации головоломок, которая создает задачи в различных форматах (текст и изображение) и предлагает различные стратегии оценки, от прямого решения головоломок до интерактивных режимов. Наши обширные тесты более чем 20 моделей показывают, что модели, специализирующиеся на рассуждениях, значительно превосходят модели без таких способностей, эффективно используя ограничения, связанные с пересекающимися буквами. Мы также демонстрируем, что LVLM испытывают трудности с этой задачей, показывая сильную корреляцию между их производительностью в решении головоломок и точностью анализа сетки. Наши результаты проливают свет на ограничения способностей к рассуждению современных LLM и LVLM и предлагают эффективный подход для создания многомодальных задач с ограничениями для будущих оценок.
English
Existing reasoning evaluation frameworks for Large Language Models (LLMs) and
Large Vision-Language Models (LVLMs) predominantly either assess text-based
reasoning or vision-language understanding capabilities, with limited dynamic
interplay between textual and visual constraints. To address this limitation,
we introduce CrossWordBench, a benchmark designed to evaluate the reasoning
capabilities of both LLMs and LVLMs through the medium of crossword puzzles-a
task requiring multimodal adherence to semantic constraints from text-based
clues and intersectional constraints from visual grid structures.
CrossWordBench leverages a controllable puzzle generation framework that
produces puzzles in multiple formats (text and image) and offers different
evaluation strategies ranging from direct puzzle solving to interactive modes.
Our extensive evaluation of over 20 models reveals that reasoning LLMs
outperform non-reasoning models substantially by effectively leveraging
crossing-letter constraints. We further demonstrate that LVLMs struggle with
the task, showing a strong correlation between their puzzle-solving performance
and grid-parsing accuracy. Our findings offer insights into the limitations of
the reasoning capabilities of current LLMs and LVLMs, and provide an effective
approach for creating multimodal constrained tasks for future evaluations.Summary
AI-Generated Summary