Test of Time: Een Benchmark voor het Evalueren van LLM's op Temporeel Redeneren

Samenvatting

Grote taalmodellen (LLMs) hebben opmerkelijke redeneervaardigheden getoond, maar ze blijven vatbaar voor fouten, met name bij temporele redeneertaken die complexe temporele logica omvatten. Bestaand onderzoek heeft de prestaties van LLMs op het gebied van temporeel redeneren onderzocht met behulp van diverse datasets en benchmarks. Deze studies baseren zich echter vaak op real-world data die LLMs mogelijk zijn tegengekomen tijdens de pre-training of maken gebruik van anonimiseringstechnieken die onbedoeld feitelijke inconsistenties kunnen introduceren. In dit werk gaan we deze beperkingen te lijf door nieuwe synthetische datasets te introduceren die specifiek zijn ontworpen om de temporele redeneervaardigheden van LLMs in verschillende scenario's te beoordelen. De diversiteit aan vraagtypen in deze datasets maakt een systematisch onderzoek mogelijk naar de impact van de probleemstructuur, grootte, vraagtype, feitenvolgorde en andere factoren op de prestaties van LLMs. Onze bevindingen bieden waardevolle inzichten in de sterke en zwakke punten van huidige LLMs bij temporele redeneertaken. Om verder onderzoek op dit gebied te stimuleren, maken we de datasets en het evaluatieraamwerk die in onze experimenten zijn gebruikt openbaar: https://huggingface.co/datasets/baharef/ToT.

English

Large language models (LLMs) have showcased remarkable reasoning capabilities, yet they remain susceptible to errors, particularly in temporal reasoning tasks involving complex temporal logic. Existing research has explored LLM performance on temporal reasoning using diverse datasets and benchmarks. However, these studies often rely on real-world data that LLMs may have encountered during pre-training or employ anonymization techniques that can inadvertently introduce factual inconsistencies. In this work, we address these limitations by introducing novel synthetic datasets specifically designed to assess LLM temporal reasoning abilities in various scenarios. The diversity of question types across these datasets enables systematic investigation into the impact of the problem structure, size, question type, fact order, and other factors on LLM performance. Our findings provide valuable insights into the strengths and weaknesses of current LLMs in temporal reasoning tasks. To foster further research in this area, we are open-sourcing the datasets and evaluation framework used in our experiments: https://huggingface.co/datasets/baharef/ToT.

Test of Time: Een Benchmark voor het Evalueren van LLM's op Temporeel Redeneren

Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning

Samenvatting

Support