RiddleBench: 大規模言語モデルのための新世代生成的推論ベンチマーク
RiddleBench: A New Generative Reasoning Benchmark for LLMs
October 28, 2025
著者: Deepon Halder, Alan Saji, Thanmay Jayakumar, Ratish Puduppully, Anoop Kunchukuttan, Raj Dabre
cs.AI
要旨
大規模言語モデルは、多くの確立された推論ベンチマークにおいて強力な性能を示している。しかし、これらのベンチマークは主に定量的問題解決のような構造化されたスキルを評価するものであり、人間の知能の中核をなす柔軟で多面的な推論能力を測るには不十分である。これらの能力は、論理的推論と空間的認識、制約充足を統合することを必要とするが、現在の評価手法はこれを十分に測定できていない。この問題に対処するため、我々はこれらの核心的推論能力を探るために設計された、英語の1,737問の難解なパズルからなるベンチマーク「RiddleBench」を提案する。RiddleBenchにおける最先端モデルの評価結果は、根本的な弱点を明らかにしている。Gemini 2.5 Pro、o3、Claude 4 Sonnetといった最高水準の専有モデルでさえ、正答率はわずか60%強(それぞれ60.30%、63.37%、63.16%)に留まっている。分析をさらに進めると、深層的な失敗要因が明らかになり、例えば、他のモデルからの誤った推論を受け入れる「幻覚カスケード」や、強い自己確証バイアスに起因する不十分な自己修正能力が認められる。また、これらのモデルの推論は脆弱であり、制約の順序を変更したり無関係な情報を導入したりするだけで、性能が著しく低下する。RiddleBenchは、これらの問題を診断するツールとして、そして、より堅牢で信頼性の高い言語モデルの開発を導くリソースとして機能する。
English
Large Language Models have demonstrated strong performance on many
established reasoning benchmarks. However, these benchmarks primarily evaluate
structured skills like quantitative problem-solving, leaving a gap in assessing
flexible, multifaceted reasoning abilities that are central to human
intelligence. These abilities require integrating logical deduction with
spatial awareness and constraint satisfaction, which current evaluations do not
measure well. To address this, we introduce RiddleBench, a benchmark of 1,737
challenging puzzles in English designed to probe these core reasoning
capabilities. Evaluation of state-of-the-art models on RiddleBench shows
fundamental weaknesses. Even top proprietary models like Gemini 2.5 Pro, o3,
and Claude 4 Sonnet achieve accuracy just above 60% (60.30%, 63.37%, and
63.16%). Analysis further reveals deep failures, including hallucination
cascades (accepting flawed reasoning from other models) and poor
self-correction due to a strong self-confirmation bias. Their reasoning is also
fragile, with performance degrading significantly when constraints are
reordered or irrelevant information is introduced. RiddleBench functions as a
diagnostic tool for these issues and as a resource for guiding the development
of more robust and reliable language models.