Wenn Benchmarks altern: Zeitliche Fehlausrichtung durch Faktizitätsbewertung großer Sprachmodelle
When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation
October 8, 2025
papers.authors: Xunyi Jiang, Dingyi Chang, Julian McAuley, Xin Xu
cs.AI
papers.abstract
Die rasche Entwicklung großer Sprachmodelle (LLMs) und der realen Welt hat die statische Natur weit verbreiteter Evaluierungsbenchmarks überholt, was Bedenken hinsichtlich ihrer Zuverlässigkeit bei der Bewertung der Faktizität von LLMs aufwirft. Während zahlreiche Arbeiten weiterhin auf beliebte, aber veraltete Benchmarks zurückgreifen, bleiben deren zeitliche Fehlausrichtung mit realweltlichen Fakten und modernen LLMs sowie deren Auswirkungen auf die Bewertung der Faktizität von LLMs weitgehend unerforscht. Daher präsentieren wir in dieser Arbeit eine systematische Untersuchung dieses Problems, indem wir fünf populäre Faktizitätsbenchmarks und acht LLMs, die in verschiedenen Jahren veröffentlicht wurden, analysieren. Eine aktuelle Faktenabrufpipeline und drei Metriken wurden speziell entwickelt, um die Alterung von Benchmarks und deren Auswirkungen auf die Bewertung der Faktizität von LLMs zu quantifizieren. Experimentelle Ergebnisse und Analysen zeigen, dass ein beträchtlicher Teil der Proben in den weit verbreiteten Faktizitätsbenchmarks veraltet ist, was zu unzuverlässigen Bewertungen der Faktizität von LLMs führt. Wir hoffen, dass unsere Arbeit eine Testumgebung bieten kann, um die Zuverlässigkeit eines Benchmarks für die Bewertung der Faktizität von LLMs zu beurteilen, und weitere Forschung zum Problem der Benchmark-Alterung anregt. Die Codes sind unter https://github.com/JiangXunyi/BenchAge verfügbar.
English
The rapid evolution of large language models (LLMs) and the real world has
outpaced the static nature of widely used evaluation benchmarks, raising
concerns about their reliability for evaluating LLM factuality. While
substantial works continue to rely on the popular but old benchmarks, their
temporal misalignment with real-world facts and modern LLMs, and their effects
on LLM factuality evaluation remain underexplored. Therefore, in this work, we
present a systematic investigation of this issue by examining five popular
factuality benchmarks and eight LLMs released across different years. An
up-to-date fact retrieval pipeline and three metrics are tailored to quantify
benchmark aging and its impact on LLM factuality evaluation. Experimental
results and analysis illustrate that a considerable portion of samples in the
widely used factuality benchmarks are outdated, leading to unreliable
assessments of LLM factuality. We hope our work can provide a testbed to assess
the reliability of a benchmark for LLM factuality evaluation and inspire more
research on the benchmark aging issue. Codes are available in
https://github.com/JiangXunyi/BenchAge.