Wenn Benchmarks altern: Zeitliche Fehlausrichtung durch Faktizitätsbewertung großer Sprachmodelle

Zusammenfassung

Die rasche Entwicklung großer Sprachmodelle (LLMs) und der realen Welt hat die statische Natur weit verbreiteter Evaluierungsbenchmarks überholt, was Bedenken hinsichtlich ihrer Zuverlässigkeit bei der Bewertung der Faktizität von LLMs aufwirft. Während zahlreiche Arbeiten weiterhin auf beliebte, aber veraltete Benchmarks zurückgreifen, bleiben deren zeitliche Fehlausrichtung mit realweltlichen Fakten und modernen LLMs sowie deren Auswirkungen auf die Bewertung der Faktizität von LLMs weitgehend unerforscht. Daher präsentieren wir in dieser Arbeit eine systematische Untersuchung dieses Problems, indem wir fünf populäre Faktizitätsbenchmarks und acht LLMs, die in verschiedenen Jahren veröffentlicht wurden, analysieren. Eine aktuelle Faktenabrufpipeline und drei Metriken wurden speziell entwickelt, um die Alterung von Benchmarks und deren Auswirkungen auf die Bewertung der Faktizität von LLMs zu quantifizieren. Experimentelle Ergebnisse und Analysen zeigen, dass ein beträchtlicher Teil der Proben in den weit verbreiteten Faktizitätsbenchmarks veraltet ist, was zu unzuverlässigen Bewertungen der Faktizität von LLMs führt. Wir hoffen, dass unsere Arbeit eine Testumgebung bieten kann, um die Zuverlässigkeit eines Benchmarks für die Bewertung der Faktizität von LLMs zu beurteilen, und weitere Forschung zum Problem der Benchmark-Alterung anregt. Die Codes sind unter https://github.com/JiangXunyi/BenchAge verfügbar.

English

The rapid evolution of large language models (LLMs) and the real world has outpaced the static nature of widely used evaluation benchmarks, raising concerns about their reliability for evaluating LLM factuality. While substantial works continue to rely on the popular but old benchmarks, their temporal misalignment with real-world facts and modern LLMs, and their effects on LLM factuality evaluation remain underexplored. Therefore, in this work, we present a systematic investigation of this issue by examining five popular factuality benchmarks and eight LLMs released across different years. An up-to-date fact retrieval pipeline and three metrics are tailored to quantify benchmark aging and its impact on LLM factuality evaluation. Experimental results and analysis illustrate that a considerable portion of samples in the widely used factuality benchmarks are outdated, leading to unreliable assessments of LLM factuality. We hope our work can provide a testbed to assess the reliability of a benchmark for LLM factuality evaluation and inspire more research on the benchmark aging issue. Codes are available in https://github.com/JiangXunyi/BenchAge.