Тест времени: критерий оценки LLM на временном рассуждении
Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning
June 13, 2024
Авторы: Bahare Fatemi, Mehran Kazemi, Anton Tsitsulin, Karishma Malkan, Jinyeong Yim, John Palowitch, Sungyong Seo, Jonathan Halcrow, Bryan Perozzi
cs.AI
Аннотация
Большие языковые модели (LLM) продемонстрировали выдающиеся способности к рассуждениям, однако они остаются уязвимыми к ошибкам, особенно в задачах временного рассуждения, включающих сложную временную логику. Существующие исследования изучали производительность LLM во временном рассуждении, используя разнообразные наборы данных и бенчмарки. Однако эти исследования часто опираются на реальные данные, с которыми LLM могли столкнуться во время предварительного обучения, или используют техники анонимизации, которые могут ненамеренно вводить фактические несоответствия. В данной работе мы решаем эти ограничения, представляя новые синтетические наборы данных, специально разработанные для оценки способностей LLM во временных рассуждениях в различных сценариях. Разнообразие типов вопросов в этих наборах данных позволяет систематически исследовать влияние структуры проблемы, размера, типа вопроса, порядка фактов и других факторов на производительность LLM. Наши результаты предоставляют ценные идеи о сильных и слабых сторонах текущих LLM в задачах временного рассуждения. Для поощрения дальнейших исследований в этой области мы открываем доступ к наборам данных и оценочной среде, использованным в наших экспериментах: https://huggingface.co/datasets/baharef/ToT.
English
Large language models (LLMs) have showcased remarkable reasoning
capabilities, yet they remain susceptible to errors, particularly in temporal
reasoning tasks involving complex temporal logic. Existing research has
explored LLM performance on temporal reasoning using diverse datasets and
benchmarks. However, these studies often rely on real-world data that LLMs may
have encountered during pre-training or employ anonymization techniques that
can inadvertently introduce factual inconsistencies. In this work, we address
these limitations by introducing novel synthetic datasets specifically designed
to assess LLM temporal reasoning abilities in various scenarios. The diversity
of question types across these datasets enables systematic investigation into
the impact of the problem structure, size, question type, fact order, and other
factors on LLM performance. Our findings provide valuable insights into the
strengths and weaknesses of current LLMs in temporal reasoning tasks. To foster
further research in this area, we are open-sourcing the datasets and evaluation
framework used in our experiments: https://huggingface.co/datasets/baharef/ToT.Summary
AI-Generated Summary