언어 모델 예측 평가의 함정
Pitfalls in Evaluating Language Model Forecasters
May 31, 2025
저자: Daniel Paleka, Shashwat Goel, Jonas Geiping, Florian Tramèr
cs.AI
초록
대형 언어 모델(LLMs)이 최근 예측 작업에 적용되면서, 일부 연구에서는 이러한 시스템이 인간의 성능을 능가하거나 동등하다고 주장하고 있습니다. 본 논문에서는 이러한 결론에 대해 커뮤니티로서 신중해야 한다고 주장합니다. 왜냐하면 LLM 예측 시스템을 평가하는 데는 독특한 도전 과제들이 존재하기 때문입니다. 우리는 두 가지 주요 문제 범주를 식별합니다: (1) 다양한 형태의 시간적 누출(temporal leakage)로 인해 평가 결과를 신뢰하기 어려운 점, 그리고 (2) 평가 성능을 실제 세계의 예측으로 외삽하기 어려운 점. 선행 연구의 체계적인 분석과 구체적인 예시를 통해, 평가의 결함이 현재와 미래의 성능 주장에 대해 우려를 불러일으킬 수 있음을 보여줍니다. 우리는 LLM의 예측 능력을 확신 있게 평가하기 위해서는 보다 엄격한 평가 방법론이 필요하다고 주장합니다.
English
Large language models (LLMs) have recently been applied to forecasting tasks,
with some works claiming these systems match or exceed human performance. In
this paper, we argue that, as a community, we should be careful about such
conclusions as evaluating LLM forecasters presents unique challenges. We
identify two broad categories of issues: (1) difficulty in trusting evaluation
results due to many forms of temporal leakage, and (2) difficulty in
extrapolating from evaluation performance to real-world forecasting. Through
systematic analysis and concrete examples from prior work, we demonstrate how
evaluation flaws can raise concerns about current and future performance
claims. We argue that more rigorous evaluation methodologies are needed to
confidently assess the forecasting abilities of LLMs.