Errores comunes en la evaluación de modelos de lenguaje predictivos
Pitfalls in Evaluating Language Model Forecasters
May 31, 2025
Autores: Daniel Paleka, Shashwat Goel, Jonas Geiping, Florian Tramèr
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se han aplicado recientemente a tareas de pronóstico, con algunos trabajos afirmando que estos sistemas igualan o superan el desempeño humano. En este artículo, argumentamos que, como comunidad, debemos ser cautelosos con tales conclusiones, ya que evaluar a los pronosticadores basados en LLMs presenta desafíos únicos. Identificamos dos categorías amplias de problemas: (1) la dificultad para confiar en los resultados de la evaluación debido a diversas formas de fuga temporal, y (2) la dificultad para extrapolar el desempeño en la evaluación al pronóstico en el mundo real. A través de un análisis sistemático y ejemplos concretos de trabajos previos, demostramos cómo los defectos en la evaluación pueden generar preocupaciones sobre las afirmaciones actuales y futuras de desempeño. Argumentamos que se necesitan metodologías de evaluación más rigurosas para evaluar con confianza las capacidades de pronóstico de los LLMs.
English
Large language models (LLMs) have recently been applied to forecasting tasks,
with some works claiming these systems match or exceed human performance. In
this paper, we argue that, as a community, we should be careful about such
conclusions as evaluating LLM forecasters presents unique challenges. We
identify two broad categories of issues: (1) difficulty in trusting evaluation
results due to many forms of temporal leakage, and (2) difficulty in
extrapolating from evaluation performance to real-world forecasting. Through
systematic analysis and concrete examples from prior work, we demonstrate how
evaluation flaws can raise concerns about current and future performance
claims. We argue that more rigorous evaluation methodologies are needed to
confidently assess the forecasting abilities of LLMs.