ChatPaper.aiChatPaper

Pièges dans l'évaluation des modèles de langage prédictifs

Pitfalls in Evaluating Language Model Forecasters

May 31, 2025
Auteurs: Daniel Paleka, Shashwat Goel, Jonas Geiping, Florian Tramèr
cs.AI

Résumé

Les grands modèles de langage (LLM) ont récemment été appliqués à des tâches de prévision, certaines études affirmant que ces systèmes égalent ou surpassent les performances humaines. Dans cet article, nous soutenons que, en tant que communauté, nous devons être prudents face à de telles conclusions, car l'évaluation des prévisionnistes basés sur les LLM présente des défis uniques. Nous identifions deux grandes catégories de problèmes : (1) la difficulté à faire confiance aux résultats d'évaluation en raison de diverses formes de fuite temporelle, et (2) la difficulté à extrapoler les performances d'évaluation à la prévision dans le monde réel. À travers une analyse systématique et des exemples concrets tirés de travaux antérieurs, nous démontrons comment les lacunes dans l'évaluation peuvent susciter des inquiétudes concernant les affirmations actuelles et futures sur les performances. Nous plaidons pour des méthodologies d'évaluation plus rigoureuses afin d'évaluer avec confiance les capacités de prévision des LLM.
English
Large language models (LLMs) have recently been applied to forecasting tasks, with some works claiming these systems match or exceed human performance. In this paper, we argue that, as a community, we should be careful about such conclusions as evaluating LLM forecasters presents unique challenges. We identify two broad categories of issues: (1) difficulty in trusting evaluation results due to many forms of temporal leakage, and (2) difficulty in extrapolating from evaluation performance to real-world forecasting. Through systematic analysis and concrete examples from prior work, we demonstrate how evaluation flaws can raise concerns about current and future performance claims. We argue that more rigorous evaluation methodologies are needed to confidently assess the forecasting abilities of LLMs.
PDF32June 3, 2025