DateLogicQA : Évaluation des biais temporels dans les grands modèles de langage

Résumé

Cet article présente DateLogicQA, une référence avec 190 questions couvrant divers formats de date, contextes temporels et types de raisonnement. Nous proposons la Métrique d'Intégrité Sémantique pour évaluer la qualité de la tokenisation et analyser deux biais : le Biais au Niveau de la Représentation, affectant les plongements, et le Biais au Niveau Logique, influençant les résultats du raisonnement. Nos résultats fournissent une évaluation complète des capacités et des limitations des LLMs en matière de raisonnement temporel, mettant en évidence les principaux défis liés à la manipulation précise des données temporelles. Le référentiel GitHub de notre travail est disponible sur https://github.com/gagan3012/EAIS-Temporal-Bias.

English

This paper introduces DateLogicQA, a benchmark with 190 questions covering diverse date formats, temporal contexts, and reasoning types. We propose the Semantic Integrity Metric to assess tokenization quality and analyse two biases: Representation-Level Bias, affecting embeddings, and Logical-Level Bias, influencing reasoning outputs. Our findings provide a comprehensive evaluation of LLMs' capabilities and limitations in temporal reasoning, highlighting key challenges in handling temporal data accurately. The GitHub repository for our work is available at https://github.com/gagan3012/EAIS-Temporal-Bias