Pièges dans l'évaluation des modèles de langage prédictifs
Pitfalls in Evaluating Language Model Forecasters
May 31, 2025
Auteurs: Daniel Paleka, Shashwat Goel, Jonas Geiping, Florian Tramèr
cs.AI
Résumé
Les grands modèles de langage (LLM) ont récemment été appliqués à des tâches de prévision, certaines études affirmant que ces systèmes égalent ou surpassent les performances humaines. Dans cet article, nous soutenons que, en tant que communauté, nous devons être prudents face à de telles conclusions, car l'évaluation des prévisionnistes basés sur les LLM présente des défis uniques. Nous identifions deux grandes catégories de problèmes : (1) la difficulté à faire confiance aux résultats d'évaluation en raison de diverses formes de fuite temporelle, et (2) la difficulté à extrapoler les performances d'évaluation à la prévision dans le monde réel. À travers une analyse systématique et des exemples concrets tirés de travaux antérieurs, nous démontrons comment les lacunes dans l'évaluation peuvent susciter des inquiétudes concernant les affirmations actuelles et futures sur les performances. Nous plaidons pour des méthodologies d'évaluation plus rigoureuses afin d'évaluer avec confiance les capacités de prévision des LLM.
English
Large language models (LLMs) have recently been applied to forecasting tasks,
with some works claiming these systems match or exceed human performance. In
this paper, we argue that, as a community, we should be careful about such
conclusions as evaluating LLM forecasters presents unique challenges. We
identify two broad categories of issues: (1) difficulty in trusting evaluation
results due to many forms of temporal leakage, and (2) difficulty in
extrapolating from evaluation performance to real-world forecasting. Through
systematic analysis and concrete examples from prior work, we demonstrate how
evaluation flaws can raise concerns about current and future performance
claims. We argue that more rigorous evaluation methodologies are needed to
confidently assess the forecasting abilities of LLMs.