時系列推論におけるLLM評価のためのベンチマーク:Test of Time
Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning
June 13, 2024
著者: Bahare Fatemi, Mehran Kazemi, Anton Tsitsulin, Karishma Malkan, Jinyeong Yim, John Palowitch, Sungyong Seo, Jonathan Halcrow, Bryan Perozzi
cs.AI
要旨
大規模言語モデル(LLM)は、驚くべき推論能力を示しているものの、特に複雑な時間論理を含む時間的推論タスクにおいては、依然としてエラーが発生しやすい。既存の研究では、多様なデータセットとベンチマークを用いて、LLMの時間的推論性能を探求してきた。しかし、これらの研究は、LLMが事前学習中に遭遇した可能性のある実世界のデータに依存しているか、あるいは事実の不整合を意図せずに導入してしまう匿名化技術を採用していることが多い。本研究では、これらの制約を克服するため、LLMの時間的推論能力を様々なシナリオで評価するために特別に設計された新しい合成データセットを導入する。これらのデータセットに含まれる多様な質問タイプにより、問題の構造、サイズ、質問タイプ、事実の順序、その他の要因がLLMの性能に与える影響を体系的に調査することが可能となる。我々の知見は、現在のLLMが時間的推論タスクにおいて持つ強みと弱みに関する貴重な洞察を提供する。この分野のさらなる研究を促進するため、我々は実験で使用したデータセットと評価フレームワークをオープンソースとして公開する:https://huggingface.co/datasets/baharef/ToT。
English
Large language models (LLMs) have showcased remarkable reasoning
capabilities, yet they remain susceptible to errors, particularly in temporal
reasoning tasks involving complex temporal logic. Existing research has
explored LLM performance on temporal reasoning using diverse datasets and
benchmarks. However, these studies often rely on real-world data that LLMs may
have encountered during pre-training or employ anonymization techniques that
can inadvertently introduce factual inconsistencies. In this work, we address
these limitations by introducing novel synthetic datasets specifically designed
to assess LLM temporal reasoning abilities in various scenarios. The diversity
of question types across these datasets enables systematic investigation into
the impact of the problem structure, size, question type, fact order, and other
factors on LLM performance. Our findings provide valuable insights into the
strengths and weaknesses of current LLMs in temporal reasoning tasks. To foster
further research in this area, we are open-sourcing the datasets and evaluation
framework used in our experiments: https://huggingface.co/datasets/baharef/ToT.Summary
AI-Generated Summary