DatumLogicaQA: Benchmarken van Temporele Vooroordelen in Grote Taalmodellen
DateLogicQA: Benchmarking Temporal Biases in Large Language Models
December 17, 2024
Auteurs: Gagan Bhatia, MingZe Tang, Cristina Mahanta, Madiha Kazi
cs.AI
Samenvatting
Dit artikel introduceert DateLogicQA, een benchmark met 190 vragen die diverse datumformaten, temporele contexten en redenatietypen bestrijken. We stellen de Semantische Integriteitsmetriek voor om de kwaliteit van tokenisatie te beoordelen en analyseren twee vooroordelen: Representatieniveau Vooroordeel, dat invloed heeft op embeddings, en Logisch Niveau Vooroordeel, dat redeneringsresultaten beïnvloedt. Onze bevindingen bieden een uitgebreide evaluatie van de mogelijkheden en beperkingen van LLM's in temporeel redeneren, waarbij belangrijke uitdagingen in het nauwkeurig verwerken van temporele gegevens worden benadrukt. De GitHub-opslagplaats voor ons werk is beschikbaar op https://github.com/gagan3012/EAIS-Temporal-Bias.
English
This paper introduces DateLogicQA, a benchmark with 190 questions covering
diverse date formats, temporal contexts, and reasoning types. We propose the
Semantic Integrity Metric to assess tokenization quality and analyse two
biases: Representation-Level Bias, affecting embeddings, and Logical-Level
Bias, influencing reasoning outputs. Our findings provide a comprehensive
evaluation of LLMs' capabilities and limitations in temporal reasoning,
highlighting key challenges in handling temporal data accurately. The GitHub
repository for our work is available at
https://github.com/gagan3012/EAIS-Temporal-Bias