ChatPaper.aiChatPaper

CrossWordBench : Évaluation des Capacités de Raisonnement des LLM et LVLM grâce à la Génération Contrôlée de Puzzles

CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation

March 30, 2025
Auteurs: Jixuan Leng, Chengsong Huang, Langlin Huang, Bill Yuchen Lin, William W. Cohen, Haohan Wang, Jiaxin Huang
cs.AI

Résumé

Les cadres d'évaluation existants pour les capacités de raisonnement des modèles de langage de grande taille (LLMs) et des modèles vision-langage de grande taille (LVLMs) se concentrent principalement sur l'évaluation du raisonnement textuel ou de la compréhension vision-langage, avec une interaction dynamique limitée entre les contraintes textuelles et visuelles. Pour remédier à cette limitation, nous introduisons CrossWordBench, un benchmark conçu pour évaluer les capacités de raisonnement des LLMs et des LVLMs à travers le médium des mots croisés - une tâche nécessitant une adhésion multimodale aux contraintes sémantiques des indices textuels et aux contraintes intersectionnelles des structures de grilles visuelles. CrossWordBench s'appuie sur un cadre de génération de puzzles contrôlable qui produit des puzzles dans plusieurs formats (texte et image) et propose différentes stratégies d'évaluation allant de la résolution directe de puzzles à des modes interactifs. Notre évaluation approfondie de plus de 20 modèles révèle que les LLMs spécialisés en raisonnement surpassent considérablement les modèles non spécialisés en exploitant efficacement les contraintes de lettres croisées. Nous démontrons en outre que les LVLMs rencontrent des difficultés avec cette tâche, montrant une forte corrélation entre leur performance en résolution de puzzles et leur précision dans l'analyse des grilles. Nos résultats offrent des insights sur les limites des capacités de raisonnement des LLMs et LVLMs actuels, et fournissent une approche efficace pour créer des tâches multimodales contraintes pour les évaluations futures.
English
Existing reasoning evaluation frameworks for Large Language Models (LLMs) and Large Vision-Language Models (LVLMs) predominantly either assess text-based reasoning or vision-language understanding capabilities, with limited dynamic interplay between textual and visual constraints. To address this limitation, we introduce CrossWordBench, a benchmark designed to evaluate the reasoning capabilities of both LLMs and LVLMs through the medium of crossword puzzles-a task requiring multimodal adherence to semantic constraints from text-based clues and intersectional constraints from visual grid structures. CrossWordBench leverages a controllable puzzle generation framework that produces puzzles in multiple formats (text and image) and offers different evaluation strategies ranging from direct puzzle solving to interactive modes. Our extensive evaluation of over 20 models reveals that reasoning LLMs outperform non-reasoning models substantially by effectively leveraging crossing-letter constraints. We further demonstrate that LVLMs struggle with the task, showing a strong correlation between their puzzle-solving performance and grid-parsing accuracy. Our findings offer insights into the limitations of the reasoning capabilities of current LLMs and LVLMs, and provide an effective approach for creating multimodal constrained tasks for future evaluations.

Summary

AI-Generated Summary

PDF92April 9, 2025