DateLogicQA: Evaluación comparativa de sesgos temporales en modelos de lenguaje grandes
DateLogicQA: Benchmarking Temporal Biases in Large Language Models
December 17, 2024
Autores: Gagan Bhatia, MingZe Tang, Cristina Mahanta, Madiha Kazi
cs.AI
Resumen
Este documento presenta DateLogicQA, un banco de pruebas con 190 preguntas que abarcan diversos formatos de fechas, contextos temporales y tipos de razonamiento. Proponemos la Métrica de Integridad Semántica para evaluar la calidad de la tokenización y analizar dos sesgos: el Sesgo a Nivel de Representación, que afecta a los embeddings, y el Sesgo a Nivel Lógico, que influye en las salidas de razonamiento. Nuestros hallazgos proporcionan una evaluación exhaustiva de las capacidades y limitaciones de los LLMs en el razonamiento temporal, resaltando los desafíos clave en el manejo preciso de datos temporales. El repositorio de GitHub para nuestro trabajo está disponible en https://github.com/gagan3012/EAIS-Temporal-Bias
English
This paper introduces DateLogicQA, a benchmark with 190 questions covering
diverse date formats, temporal contexts, and reasoning types. We propose the
Semantic Integrity Metric to assess tokenization quality and analyse two
biases: Representation-Level Bias, affecting embeddings, and Logical-Level
Bias, influencing reasoning outputs. Our findings provide a comprehensive
evaluation of LLMs' capabilities and limitations in temporal reasoning,
highlighting key challenges in handling temporal data accurately. The GitHub
repository for our work is available at
https://github.com/gagan3012/EAIS-Temporal-BiasSummary
AI-Generated Summary