Test of Time: Een Benchmark voor het Evalueren van LLM's op Temporeel Redeneren
Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning
June 13, 2024
Auteurs: Bahare Fatemi, Mehran Kazemi, Anton Tsitsulin, Karishma Malkan, Jinyeong Yim, John Palowitch, Sungyong Seo, Jonathan Halcrow, Bryan Perozzi
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben opmerkelijke redeneervaardigheden getoond, maar ze blijven vatbaar voor fouten, met name bij temporele redeneertaken die complexe temporele logica omvatten. Bestaand onderzoek heeft de prestaties van LLMs op het gebied van temporeel redeneren onderzocht met behulp van diverse datasets en benchmarks. Deze studies baseren zich echter vaak op real-world data die LLMs mogelijk zijn tegengekomen tijdens de pre-training of maken gebruik van anonimiseringstechnieken die onbedoeld feitelijke inconsistenties kunnen introduceren. In dit werk gaan we deze beperkingen te lijf door nieuwe synthetische datasets te introduceren die specifiek zijn ontworpen om de temporele redeneervaardigheden van LLMs in verschillende scenario's te beoordelen. De diversiteit aan vraagtypen in deze datasets maakt een systematisch onderzoek mogelijk naar de impact van de probleemstructuur, grootte, vraagtype, feitenvolgorde en andere factoren op de prestaties van LLMs. Onze bevindingen bieden waardevolle inzichten in de sterke en zwakke punten van huidige LLMs bij temporele redeneertaken. Om verder onderzoek op dit gebied te stimuleren, maken we de datasets en het evaluatieraamwerk die in onze experimenten zijn gebruikt openbaar: https://huggingface.co/datasets/baharef/ToT.
English
Large language models (LLMs) have showcased remarkable reasoning
capabilities, yet they remain susceptible to errors, particularly in temporal
reasoning tasks involving complex temporal logic. Existing research has
explored LLM performance on temporal reasoning using diverse datasets and
benchmarks. However, these studies often rely on real-world data that LLMs may
have encountered during pre-training or employ anonymization techniques that
can inadvertently introduce factual inconsistencies. In this work, we address
these limitations by introducing novel synthetic datasets specifically designed
to assess LLM temporal reasoning abilities in various scenarios. The diversity
of question types across these datasets enables systematic investigation into
the impact of the problem structure, size, question type, fact order, and other
factors on LLM performance. Our findings provide valuable insights into the
strengths and weaknesses of current LLMs in temporal reasoning tasks. To foster
further research in this area, we are open-sourcing the datasets and evaluation
framework used in our experiments: https://huggingface.co/datasets/baharef/ToT.