DateLogicQA: Сравнение временных искажений в крупных языковых моделях
DateLogicQA: Benchmarking Temporal Biases in Large Language Models
December 17, 2024
Авторы: Gagan Bhatia, MingZe Tang, Cristina Mahanta, Madiha Kazi
cs.AI
Аннотация
В данной статье представлен DateLogicQA, набор тестов с 190 вопросами, охватывающими различные форматы дат, временные контексты и типы рассуждений. Мы предлагаем метрику семантической целостности для оценки качества токенизации и анализируем два типа предвзятостей: Предвзятость на уровне представления, влияющая на вложения, и Предвзятость на логическом уровне, влияющая на результаты рассуждений. Наши результаты обеспечивают всестороннюю оценку возможностей и ограничений LLM в области временного рассуждения, выделяя ключевые вызовы в точной обработке временных данных. Репозиторий нашей работы доступен на GitHub по адресу https://github.com/gagan3012/EAIS-Temporal-Bias
English
This paper introduces DateLogicQA, a benchmark with 190 questions covering
diverse date formats, temporal contexts, and reasoning types. We propose the
Semantic Integrity Metric to assess tokenization quality and analyse two
biases: Representation-Level Bias, affecting embeddings, and Logical-Level
Bias, influencing reasoning outputs. Our findings provide a comprehensive
evaluation of LLMs' capabilities and limitations in temporal reasoning,
highlighting key challenges in handling temporal data accurately. The GitHub
repository for our work is available at
https://github.com/gagan3012/EAIS-Temporal-BiasSummary
AI-Generated Summary