Errores comunes en la evaluación de modelos de lenguaje predictivos

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se han aplicado recientemente a tareas de pronóstico, con algunos trabajos afirmando que estos sistemas igualan o superan el desempeño humano. En este artículo, argumentamos que, como comunidad, debemos ser cautelosos con tales conclusiones, ya que evaluar a los pronosticadores basados en LLMs presenta desafíos únicos. Identificamos dos categorías amplias de problemas: (1) la dificultad para confiar en los resultados de la evaluación debido a diversas formas de fuga temporal, y (2) la dificultad para extrapolar el desempeño en la evaluación al pronóstico en el mundo real. A través de un análisis sistemático y ejemplos concretos de trabajos previos, demostramos cómo los defectos en la evaluación pueden generar preocupaciones sobre las afirmaciones actuales y futuras de desempeño. Argumentamos que se necesitan metodologías de evaluación más rigurosas para evaluar con confianza las capacidades de pronóstico de los LLMs.

English

Large language models (LLMs) have recently been applied to forecasting tasks, with some works claiming these systems match or exceed human performance. In this paper, we argue that, as a community, we should be careful about such conclusions as evaluating LLM forecasters presents unique challenges. We identify two broad categories of issues: (1) difficulty in trusting evaluation results due to many forms of temporal leakage, and (2) difficulty in extrapolating from evaluation performance to real-world forecasting. Through systematic analysis and concrete examples from prior work, we demonstrate how evaluation flaws can raise concerns about current and future performance claims. We argue that more rigorous evaluation methodologies are needed to confidently assess the forecasting abilities of LLMs.

Errores comunes en la evaluación de modelos de lenguaje predictivos

Pitfalls in Evaluating Language Model Forecasters

Resumen

Support