DatumLogikQA: Benchmarking zeitliche Verzerrungen in großen Sprachmodellen
DateLogicQA: Benchmarking Temporal Biases in Large Language Models
December 17, 2024
Autoren: Gagan Bhatia, MingZe Tang, Cristina Mahanta, Madiha Kazi
cs.AI
Zusammenfassung
Dieses Papier stellt DateLogicQA vor, einen Benchmark mit 190 Fragen, die verschiedene Datumsformate, zeitliche Kontexte und Arten des Schlussfolgerns abdecken. Wir schlagen die semantische Integritätsmetrik vor, um die Tokenisierungsqualität zu bewerten und analysieren zwei Arten von Verzerrungen: die Repräsentationsebene-Verzerrung, die Einbettungen betrifft, und die Logik-Ebene-Verzerrung, die die Schlussfolgerungsergebnisse beeinflusst. Unsere Ergebnisse bieten eine umfassende Bewertung der Fähigkeiten und Grenzen von LLMs im zeitlichen Schlussfolgern und heben wichtige Herausforderungen bei der präzisen Handhabung von zeitbezogenen Daten hervor. Das GitHub-Repository für unsere Arbeit ist verfügbar unter https://github.com/gagan3012/EAIS-Temporal-Bias
English
This paper introduces DateLogicQA, a benchmark with 190 questions covering
diverse date formats, temporal contexts, and reasoning types. We propose the
Semantic Integrity Metric to assess tokenization quality and analyse two
biases: Representation-Level Bias, affecting embeddings, and Logical-Level
Bias, influencing reasoning outputs. Our findings provide a comprehensive
evaluation of LLMs' capabilities and limitations in temporal reasoning,
highlighting key challenges in handling temporal data accurately. The GitHub
repository for our work is available at
https://github.com/gagan3012/EAIS-Temporal-BiasSummary
AI-Generated Summary