ChatPaper.aiChatPaper

DateLogicQA : Évaluation des biais temporels dans les grands modèles de langage

DateLogicQA: Benchmarking Temporal Biases in Large Language Models

December 17, 2024
Auteurs: Gagan Bhatia, MingZe Tang, Cristina Mahanta, Madiha Kazi
cs.AI

Résumé

Cet article présente DateLogicQA, une référence avec 190 questions couvrant divers formats de date, contextes temporels et types de raisonnement. Nous proposons la Métrique d'Intégrité Sémantique pour évaluer la qualité de la tokenisation et analyser deux biais : le Biais au Niveau de la Représentation, affectant les plongements, et le Biais au Niveau Logique, influençant les résultats du raisonnement. Nos résultats fournissent une évaluation complète des capacités et des limitations des LLMs en matière de raisonnement temporel, mettant en évidence les principaux défis liés à la manipulation précise des données temporelles. Le référentiel GitHub de notre travail est disponible sur https://github.com/gagan3012/EAIS-Temporal-Bias.
English
This paper introduces DateLogicQA, a benchmark with 190 questions covering diverse date formats, temporal contexts, and reasoning types. We propose the Semantic Integrity Metric to assess tokenization quality and analyse two biases: Representation-Level Bias, affecting embeddings, and Logical-Level Bias, influencing reasoning outputs. Our findings provide a comprehensive evaluation of LLMs' capabilities and limitations in temporal reasoning, highlighting key challenges in handling temporal data accurately. The GitHub repository for our work is available at https://github.com/gagan3012/EAIS-Temporal-Bias

Summary

AI-Generated Summary

PDF22December 20, 2024