ChatPaper.aiChatPaper

DatumLogicaQA: Benchmarken van Temporele Vooroordelen in Grote Taalmodellen

DateLogicQA: Benchmarking Temporal Biases in Large Language Models

December 17, 2024
Auteurs: Gagan Bhatia, MingZe Tang, Cristina Mahanta, Madiha Kazi
cs.AI

Samenvatting

Dit artikel introduceert DateLogicQA, een benchmark met 190 vragen die diverse datumformaten, temporele contexten en redenatietypen bestrijken. We stellen de Semantische Integriteitsmetriek voor om de kwaliteit van tokenisatie te beoordelen en analyseren twee vooroordelen: Representatieniveau Vooroordeel, dat invloed heeft op embeddings, en Logisch Niveau Vooroordeel, dat redeneringsresultaten beïnvloedt. Onze bevindingen bieden een uitgebreide evaluatie van de mogelijkheden en beperkingen van LLM's in temporeel redeneren, waarbij belangrijke uitdagingen in het nauwkeurig verwerken van temporele gegevens worden benadrukt. De GitHub-opslagplaats voor ons werk is beschikbaar op https://github.com/gagan3012/EAIS-Temporal-Bias.
English
This paper introduces DateLogicQA, a benchmark with 190 questions covering diverse date formats, temporal contexts, and reasoning types. We propose the Semantic Integrity Metric to assess tokenization quality and analyse two biases: Representation-Level Bias, affecting embeddings, and Logical-Level Bias, influencing reasoning outputs. Our findings provide a comprehensive evaluation of LLMs' capabilities and limitations in temporal reasoning, highlighting key challenges in handling temporal data accurately. The GitHub repository for our work is available at https://github.com/gagan3012/EAIS-Temporal-Bias
PDF22December 20, 2024