RiddleBench: Eine neue generative Denkbenchmark für LLMs

papers.abstract

Große Sprachmodelle haben auf vielen etablierten Reasoning-Benchmarks eine starke Leistung gezeigt. Diese Benchmarks bewerten jedoch primär strukturierte Fähigkeiten wie quantitatives Problemlösen, wodurch eine Lücke bei der Bewertung flexibler, vielschichtiger Denkfähigkeiten bleibt, die für die menschliche Intelligenz zentral sind. Diese Fähigkeiten erfordern die Integration von logischer Deduktion mit räumlichem Vorstellungsvermögen und der Erfüllung von Randbedingungen, was von aktuellen Evaluationen nicht gut erfasst wird. Um dies zu adressieren, stellen wir RiddleBench vor, einen Benchmark mit 1.737 anspruchsvollen Rätseln auf Englisch, der entwickelt wurde, um diese grundlegenden Denkfähigkeiten zu untersuchen. Die Evaluation von modernsten Modellen auf RiddleBench zeigt fundamentale Schwächen auf. Selbst führende proprietäre Modelle wie Gemini 2.5 Pro, o3 und Claude 4 Sonnet erreichen nur eine Genauigkeit knapp über 60 % (60,30 %, 63,37 % und 63,16 %). Analysen zeigen weiterhin tiefgreifende Fehler auf, einschließlich Halluzinationskaskaden (das Akzeptieren fehlerhafter Schlussfolgerungen anderer Modelle) und eine schlechte Selbstkorrektur aufgrund eines starken Selbstbestätigungsfehlers. Ihr logisches Denken ist zudem fragil, wobei die Leistung erheblich abfällt, wenn Randbedingungen umgeordnet oder irrelevante Informationen eingeführt werden. RiddleBench dient als Diagnosewerkzeug für diese Probleme und als Ressource zur Steuerung der Entwicklung robusterer und zuverlässigerer Sprachmodelle.

English

Large Language Models have demonstrated strong performance on many established reasoning benchmarks. However, these benchmarks primarily evaluate structured skills like quantitative problem-solving, leaving a gap in assessing flexible, multifaceted reasoning abilities that are central to human intelligence. These abilities require integrating logical deduction with spatial awareness and constraint satisfaction, which current evaluations do not measure well. To address this, we introduce RiddleBench, a benchmark of 1,737 challenging puzzles in English designed to probe these core reasoning capabilities. Evaluation of state-of-the-art models on RiddleBench shows fundamental weaknesses. Even top proprietary models like Gemini 2.5 Pro, o3, and Claude 4 Sonnet achieve accuracy just above 60% (60.30%, 63.37%, and 63.16%). Analysis further reveals deep failures, including hallucination cascades (accepting flawed reasoning from other models) and poor self-correction due to a strong self-confirmation bias. Their reasoning is also fragile, with performance degrading significantly when constraints are reordered or irrelevant information is introduced. RiddleBench functions as a diagnostic tool for these issues and as a resource for guiding the development of more robust and reliable language models.

RiddleBench: Eine neue generative Denkbenchmark für LLMs

RiddleBench: A New Generative Reasoning Benchmark for LLMs

papers.abstract

Support