ChatPaper.aiChatPaper

CrossWordBench: Bewertung der Fähigkeiten von LLMs und LVLMs zur logischen Schlussfolgerung mit kontrollierbarer Puzzle-Generierung

CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation

March 30, 2025
Autoren: Jixuan Leng, Chengsong Huang, Langlin Huang, Bill Yuchen Lin, William W. Cohen, Haohan Wang, Jiaxin Huang
cs.AI

Zusammenfassung

Bestehende Bewertungsrahmen für die Schlussfolgerungsfähigkeiten von Large Language Models (LLMs) und Large Vision-Language Models (LVLMs) konzentrieren sich überwiegend entweder auf textbasierte Schlussfolgerungen oder auf das Verständnis von visuell-sprachlichen Zusammenhängen, wobei die dynamische Wechselwirkung zwischen textuellen und visuellen Einschränkungen nur begrenzt berücksichtigt wird. Um diese Einschränkung zu überwinden, stellen wir CrossWordBench vor, einen Benchmark, der die Schlussfolgerungsfähigkeiten sowohl von LLMs als auch von LVLMs durch das Medium von Kreuzworträtseln bewertet – eine Aufgabe, die die Einhaltung multimodaler semantischer Einschränkungen aus textbasierten Hinweisen und intersektionaler Einschränkungen aus visuellen Rasterstrukturen erfordert. CrossWordBench nutzt ein kontrollierbares Puzzle-Generierungsframework, das Rätsel in mehreren Formaten (Text und Bild) erzeugt und verschiedene Bewertungsstrategien bietet, die vom direkten Lösen von Rätseln bis hin zu interaktiven Modi reichen. Unsere umfangreiche Evaluierung von über 20 Modellen zeigt, dass schlussfolgernde LLMs nicht-schlussfolgernde Modelle deutlich übertreffen, indem sie effektiv die Einschränkungen durch sich kreuzende Buchstaben nutzen. Wir zeigen weiterhin, dass LVLMs mit der Aufgabe kämpfen und eine starke Korrelation zwischen ihrer Rätsellösungsleistung und der Genauigkeit der Rasteranalyse besteht. Unsere Erkenntnisse bieten Einblicke in die Grenzen der Schlussfolgerungsfähigkeiten aktueller LLMs und LVLMs und liefern einen effektiven Ansatz zur Erstellung multimodaler, eingeschränkter Aufgaben für zukünftige Bewertungen.
English
Existing reasoning evaluation frameworks for Large Language Models (LLMs) and Large Vision-Language Models (LVLMs) predominantly either assess text-based reasoning or vision-language understanding capabilities, with limited dynamic interplay between textual and visual constraints. To address this limitation, we introduce CrossWordBench, a benchmark designed to evaluate the reasoning capabilities of both LLMs and LVLMs through the medium of crossword puzzles-a task requiring multimodal adherence to semantic constraints from text-based clues and intersectional constraints from visual grid structures. CrossWordBench leverages a controllable puzzle generation framework that produces puzzles in multiple formats (text and image) and offers different evaluation strategies ranging from direct puzzle solving to interactive modes. Our extensive evaluation of over 20 models reveals that reasoning LLMs outperform non-reasoning models substantially by effectively leveraging crossing-letter constraints. We further demonstrate that LVLMs struggle with the task, showing a strong correlation between their puzzle-solving performance and grid-parsing accuracy. Our findings offer insights into the limitations of the reasoning capabilities of current LLMs and LVLMs, and provide an effective approach for creating multimodal constrained tasks for future evaluations.

Summary

AI-Generated Summary

PDF92April 9, 2025