Quando i Benchmark Invecchiano: Disallineamento Temporale attraverso la Valutazione della Fattualità nei Modelli Linguistici di Grande Dimensione
When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation
October 8, 2025
Autori: Xunyi Jiang, Dingyi Chang, Julian McAuley, Xin Xu
cs.AI
Abstract
La rapida evoluzione dei modelli linguistici di grandi dimensioni (LLM) e del mondo reale ha superato la natura statica dei benchmark di valutazione ampiamente utilizzati, sollevando preoccupazioni sulla loro affidabilità per valutare la veridicità degli LLM. Mentre numerosi lavori continuano a fare affidamento su benchmark popolari ma datati, il loro disallineamento temporale con i fatti del mondo reale e con i moderni LLM, nonché i loro effetti sulla valutazione della veridicità degli LLM, rimangono poco esplorati. Pertanto, in questo lavoro, presentiamo un'indagine sistematica di questa problematica esaminando cinque benchmark di veridicità popolari e otto LLM rilasciati in anni diversi. Una pipeline aggiornata per il recupero di fatti e tre metriche sono state adattate per quantificare l'invecchiamento dei benchmark e il suo impatto sulla valutazione della veridicità degli LLM. I risultati sperimentali e l'analisi dimostrano che una porzione considerevole dei campioni nei benchmark di veridicità ampiamente utilizzati è obsoleta, portando a valutazioni inaffidabili della veridicità degli LLM. Speriamo che il nostro lavoro possa fornire un banco di prova per valutare l'affidabilità di un benchmark per la valutazione della veridicità degli LLM e ispirare ulteriori ricerche sul problema dell'invecchiamento dei benchmark. I codici sono disponibili su https://github.com/JiangXunyi/BenchAge.
English
The rapid evolution of large language models (LLMs) and the real world has
outpaced the static nature of widely used evaluation benchmarks, raising
concerns about their reliability for evaluating LLM factuality. While
substantial works continue to rely on the popular but old benchmarks, their
temporal misalignment with real-world facts and modern LLMs, and their effects
on LLM factuality evaluation remain underexplored. Therefore, in this work, we
present a systematic investigation of this issue by examining five popular
factuality benchmarks and eight LLMs released across different years. An
up-to-date fact retrieval pipeline and three metrics are tailored to quantify
benchmark aging and its impact on LLM factuality evaluation. Experimental
results and analysis illustrate that a considerable portion of samples in the
widely used factuality benchmarks are outdated, leading to unreliable
assessments of LLM factuality. We hope our work can provide a testbed to assess
the reliability of a benchmark for LLM factuality evaluation and inspire more
research on the benchmark aging issue. Codes are available in
https://github.com/JiangXunyi/BenchAge.