Cuando los puntos de referencia envejecen: Desalineación temporal a través de la evaluación de factualidad en modelos de lenguaje de gran escala
When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation
October 8, 2025
Autores: Xunyi Jiang, Dingyi Chang, Julian McAuley, Xin Xu
cs.AI
Resumen
La rápida evolución de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) y del mundo real ha superado la naturaleza estática de los puntos de referencia de evaluación ampliamente utilizados, lo que ha generado preocupaciones sobre su fiabilidad para evaluar la factualidad de los LLMs. Aunque una cantidad considerable de trabajos sigue dependiendo de los puntos de referencia populares pero antiguos, su desalineación temporal con los hechos del mundo real y los LLMs modernos, así como sus efectos en la evaluación de la factualidad de los LLMs, siguen siendo poco explorados. Por lo tanto, en este trabajo, presentamos una investigación sistemática de este problema mediante el examen de cinco puntos de referencia de factualidad populares y ocho LLMs lanzados en diferentes años. Se ha diseñado una canalización actualizada para la recuperación de hechos y tres métricas para cuantificar el envejecimiento de los puntos de referencia y su impacto en la evaluación de la factualidad de los LLMs. Los resultados experimentales y el análisis ilustran que una porción considerable de las muestras en los puntos de referencia de factualidad ampliamente utilizados están desactualizadas, lo que conduce a evaluaciones poco fiables de la factualidad de los LLMs. Esperamos que nuestro trabajo pueda proporcionar un banco de pruebas para evaluar la fiabilidad de un punto de referencia en la evaluación de la factualidad de los LLMs e inspire más investigaciones sobre el problema del envejecimiento de los puntos de referencia. Los códigos están disponibles en https://github.com/JiangXunyi/BenchAge.
English
The rapid evolution of large language models (LLMs) and the real world has
outpaced the static nature of widely used evaluation benchmarks, raising
concerns about their reliability for evaluating LLM factuality. While
substantial works continue to rely on the popular but old benchmarks, their
temporal misalignment with real-world facts and modern LLMs, and their effects
on LLM factuality evaluation remain underexplored. Therefore, in this work, we
present a systematic investigation of this issue by examining five popular
factuality benchmarks and eight LLMs released across different years. An
up-to-date fact retrieval pipeline and three metrics are tailored to quantify
benchmark aging and its impact on LLM factuality evaluation. Experimental
results and analysis illustrate that a considerable portion of samples in the
widely used factuality benchmarks are outdated, leading to unreliable
assessments of LLM factuality. We hope our work can provide a testbed to assess
the reliability of a benchmark for LLM factuality evaluation and inspire more
research on the benchmark aging issue. Codes are available in
https://github.com/JiangXunyi/BenchAge.