Test del Tempo: Un Benchmark per Valutare i Modelli Linguistici di Grandi Dimensioni sul Ragionamento Temporale
Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning
June 13, 2024
Autori: Bahare Fatemi, Mehran Kazemi, Anton Tsitsulin, Karishma Malkan, Jinyeong Yim, John Palowitch, Sungyong Seo, Jonathan Halcrow, Bryan Perozzi
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità di ragionamento notevoli, ma rimangono suscettibili a errori, in particolare nei compiti di ragionamento temporale che coinvolgono logica temporale complessa. La ricerca esistente ha esplorato le prestazioni degli LLM nel ragionamento temporale utilizzando diversi dataset e benchmark. Tuttavia, questi studi spesso si basano su dati del mondo reale che gli LLM potrebbero aver incontrato durante la pre-addestramento o impiegano tecniche di anonimizzazione che possono introdurre inconsapevolmente incongruenze fattuali. In questo lavoro, affrontiamo queste limitazioni introducendo nuovi dataset sintetici progettati specificamente per valutare le capacità di ragionamento temporale degli LLM in vari scenari. La diversità dei tipi di domande in questi dataset consente un'indagine sistematica sull'impatto della struttura del problema, della dimensione, del tipo di domanda, dell'ordine dei fatti e di altri fattori sulle prestazioni degli LLM. I nostri risultati forniscono preziose intuizioni sui punti di forza e di debolezza degli attuali LLM nei compiti di ragionamento temporale. Per promuovere ulteriori ricerche in questo ambito, stiamo rendendo open-source i dataset e il framework di valutazione utilizzati nei nostri esperimenti: https://huggingface.co/datasets/baharef/ToT.
English
Large language models (LLMs) have showcased remarkable reasoning
capabilities, yet they remain susceptible to errors, particularly in temporal
reasoning tasks involving complex temporal logic. Existing research has
explored LLM performance on temporal reasoning using diverse datasets and
benchmarks. However, these studies often rely on real-world data that LLMs may
have encountered during pre-training or employ anonymization techniques that
can inadvertently introduce factual inconsistencies. In this work, we address
these limitations by introducing novel synthetic datasets specifically designed
to assess LLM temporal reasoning abilities in various scenarios. The diversity
of question types across these datasets enables systematic investigation into
the impact of the problem structure, size, question type, fact order, and other
factors on LLM performance. Our findings provide valuable insights into the
strengths and weaknesses of current LLMs in temporal reasoning tasks. To foster
further research in this area, we are open-sourcing the datasets and evaluation
framework used in our experiments: https://huggingface.co/datasets/baharef/ToT.