RiddleBench: Eine neue generative Denkbenchmark für LLMs
RiddleBench: A New Generative Reasoning Benchmark for LLMs
October 28, 2025
papers.authors: Deepon Halder, Alan Saji, Thanmay Jayakumar, Ratish Puduppully, Anoop Kunchukuttan, Raj Dabre
cs.AI
papers.abstract
Große Sprachmodelle haben auf vielen etablierten Reasoning-Benchmarks eine starke Leistung gezeigt. Diese Benchmarks bewerten jedoch primär strukturierte Fähigkeiten wie quantitatives Problemlösen, wodurch eine Lücke bei der Bewertung flexibler, vielschichtiger Denkfähigkeiten bleibt, die für die menschliche Intelligenz zentral sind. Diese Fähigkeiten erfordern die Integration von logischer Deduktion mit räumlichem Vorstellungsvermögen und der Erfüllung von Randbedingungen, was von aktuellen Evaluationen nicht gut erfasst wird. Um dies zu adressieren, stellen wir RiddleBench vor, einen Benchmark mit 1.737 anspruchsvollen Rätseln auf Englisch, der entwickelt wurde, um diese grundlegenden Denkfähigkeiten zu untersuchen. Die Evaluation von modernsten Modellen auf RiddleBench zeigt fundamentale Schwächen auf. Selbst führende proprietäre Modelle wie Gemini 2.5 Pro, o3 und Claude 4 Sonnet erreichen nur eine Genauigkeit knapp über 60 % (60,30 %, 63,37 % und 63,16 %). Analysen zeigen weiterhin tiefgreifende Fehler auf, einschließlich Halluzinationskaskaden (das Akzeptieren fehlerhafter Schlussfolgerungen anderer Modelle) und eine schlechte Selbstkorrektur aufgrund eines starken Selbstbestätigungsfehlers. Ihr logisches Denken ist zudem fragil, wobei die Leistung erheblich abfällt, wenn Randbedingungen umgeordnet oder irrelevante Informationen eingeführt werden. RiddleBench dient als Diagnosewerkzeug für diese Probleme und als Ressource zur Steuerung der Entwicklung robusterer und zuverlässigerer Sprachmodelle.
English
Large Language Models have demonstrated strong performance on many
established reasoning benchmarks. However, these benchmarks primarily evaluate
structured skills like quantitative problem-solving, leaving a gap in assessing
flexible, multifaceted reasoning abilities that are central to human
intelligence. These abilities require integrating logical deduction with
spatial awareness and constraint satisfaction, which current evaluations do not
measure well. To address this, we introduce RiddleBench, a benchmark of 1,737
challenging puzzles in English designed to probe these core reasoning
capabilities. Evaluation of state-of-the-art models on RiddleBench shows
fundamental weaknesses. Even top proprietary models like Gemini 2.5 Pro, o3,
and Claude 4 Sonnet achieve accuracy just above 60% (60.30%, 63.37%, and
63.16%). Analysis further reveals deep failures, including hallucination
cascades (accepting flawed reasoning from other models) and poor
self-correction due to a strong self-confirmation bias. Their reasoning is also
fragile, with performance degrading significantly when constraints are
reordered or irrelevant information is introduced. RiddleBench functions as a
diagnostic tool for these issues and as a resource for guiding the development
of more robust and reliable language models.