DateLogicQA : Évaluation des biais temporels dans les grands modèles de langage
DateLogicQA: Benchmarking Temporal Biases in Large Language Models
December 17, 2024
Auteurs: Gagan Bhatia, MingZe Tang, Cristina Mahanta, Madiha Kazi
cs.AI
Résumé
Cet article présente DateLogicQA, une référence avec 190 questions couvrant divers formats de date, contextes temporels et types de raisonnement. Nous proposons la Métrique d'Intégrité Sémantique pour évaluer la qualité de la tokenisation et analyser deux biais : le Biais au Niveau de la Représentation, affectant les plongements, et le Biais au Niveau Logique, influençant les résultats du raisonnement. Nos résultats fournissent une évaluation complète des capacités et des limitations des LLMs en matière de raisonnement temporel, mettant en évidence les principaux défis liés à la manipulation précise des données temporelles. Le référentiel GitHub de notre travail est disponible sur https://github.com/gagan3012/EAIS-Temporal-Bias.
English
This paper introduces DateLogicQA, a benchmark with 190 questions covering
diverse date formats, temporal contexts, and reasoning types. We propose the
Semantic Integrity Metric to assess tokenization quality and analyse two
biases: Representation-Level Bias, affecting embeddings, and Logical-Level
Bias, influencing reasoning outputs. Our findings provide a comprehensive
evaluation of LLMs' capabilities and limitations in temporal reasoning,
highlighting key challenges in handling temporal data accurately. The GitHub
repository for our work is available at
https://github.com/gagan3012/EAIS-Temporal-BiasSummary
AI-Generated Summary