RiddleBench: 대규모 언어 모델을 위한 새로운 생성형 추론 벤치마크
RiddleBench: A New Generative Reasoning Benchmark for LLMs
October 28, 2025
저자: Deepon Halder, Alan Saji, Thanmay Jayakumar, Ratish Puduppully, Anoop Kunchukuttan, Raj Dabre
cs.AI
초록
대규모 언어 모델은 많은 기존 추론 벤치마크에서 강력한 성능을 입증해왔습니다. 그러나 이러한 벤치마크는 주로 정량적 문제 해결과 같은 구조화된 능력을 평가하며, 인간 지능의 핵심인 유연하고 다면적인 추론 능력을 평가하는 데는 공백이 존재합니다. 이러한 능력은 논리적 추론과 공간 인지, 제약 조건 충족을 통합하는 것을 요구하지만, 현재의 평가 방식은 이를 효과적으로 측정하지 못합니다. 이를 해결하기 위해 우리는 이러한 핵심 추론 능력을 탐구하도록 설계된 영어 난제 1,737개로 구성된 벤치마크인 RiddleBench를 소개합니다. RiddleBench에 대한 최첨단 모델들의 평가 결과 근본적인 약점이 드러났습니다. Gemini 2.5 Pro, o3, Claude 4 Sonnet과 같은 최고의 독점 모델들조차 정확도가 60% 초반(각각 60.30%, 63.37%, 63.16%)에 그쳤습니다. 분석은 더 나아가 환각 캐스케이드(다른 모델의 결함 있는 추론을 수용함)와 강한 자기 확증 편향으로 인한 열악한 자기 수정 능력을 포함한 심각한 실패를 보여줍니다. 이들의 추론은 취약하여 제약 조건의 순서가 변경되거나 관련 없는 정보가 도입될 경우 성능이 현저히 저하됩니다. RiddleBench은 이러한 문제점들을 진단하는 도구이자, 보다 강력하고 신뢰할 수 있는 언어 모델 개발을 안내하는 자원으로 기능합니다.
English
Large Language Models have demonstrated strong performance on many
established reasoning benchmarks. However, these benchmarks primarily evaluate
structured skills like quantitative problem-solving, leaving a gap in assessing
flexible, multifaceted reasoning abilities that are central to human
intelligence. These abilities require integrating logical deduction with
spatial awareness and constraint satisfaction, which current evaluations do not
measure well. To address this, we introduce RiddleBench, a benchmark of 1,737
challenging puzzles in English designed to probe these core reasoning
capabilities. Evaluation of state-of-the-art models on RiddleBench shows
fundamental weaknesses. Even top proprietary models like Gemini 2.5 Pro, o3,
and Claude 4 Sonnet achieve accuracy just above 60% (60.30%, 63.37%, and
63.16%). Analysis further reveals deep failures, including hallucination
cascades (accepting flawed reasoning from other models) and poor
self-correction due to a strong self-confirmation bias. Their reasoning is also
fragile, with performance degrading significantly when constraints are
reordered or irrelevant information is introduced. RiddleBench functions as a
diagnostic tool for these issues and as a resource for guiding the development
of more robust and reliable language models.