ChatPaper.aiChatPaper

Test of Time : Un Benchmark pour Évaluer les Modèles de Langage sur le Raisonnement Temporel

Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning

June 13, 2024
Auteurs: Bahare Fatemi, Mehran Kazemi, Anton Tsitsulin, Karishma Malkan, Jinyeong Yim, John Palowitch, Sungyong Seo, Jonathan Halcrow, Bryan Perozzi
cs.AI

Résumé

Les grands modèles de langage (LLM) ont démontré des capacités de raisonnement remarquables, mais ils restent sujets à des erreurs, en particulier dans les tâches de raisonnement temporel impliquant une logique temporelle complexe. Les recherches existantes ont exploré les performances des LLM en matière de raisonnement temporel en utilisant divers ensembles de données et benchmarks. Cependant, ces études s'appuient souvent sur des données du monde réel que les LLM ont pu rencontrer lors de leur pré-entraînement ou emploient des techniques d'anonymisation qui peuvent introduire involontairement des incohérences factuelles. Dans ce travail, nous abordons ces limites en introduisant de nouveaux ensembles de données synthétiques spécialement conçus pour évaluer les capacités de raisonnement temporel des LLM dans divers scénarios. La diversité des types de questions dans ces ensembles de données permet une investigation systématique de l'impact de la structure du problème, de la taille, du type de question, de l'ordre des faits et d'autres facteurs sur les performances des LLM. Nos résultats fournissent des insights précieux sur les forces et les faiblesses des LLM actuels dans les tâches de raisonnement temporel. Pour favoriser des recherches supplémentaires dans ce domaine, nous rendons publics les ensembles de données et le cadre d'évaluation utilisés dans nos expériences : https://huggingface.co/datasets/baharef/ToT.
English
Large language models (LLMs) have showcased remarkable reasoning capabilities, yet they remain susceptible to errors, particularly in temporal reasoning tasks involving complex temporal logic. Existing research has explored LLM performance on temporal reasoning using diverse datasets and benchmarks. However, these studies often rely on real-world data that LLMs may have encountered during pre-training or employ anonymization techniques that can inadvertently introduce factual inconsistencies. In this work, we address these limitations by introducing novel synthetic datasets specifically designed to assess LLM temporal reasoning abilities in various scenarios. The diversity of question types across these datasets enables systematic investigation into the impact of the problem structure, size, question type, fact order, and other factors on LLM performance. Our findings provide valuable insights into the strengths and weaknesses of current LLMs in temporal reasoning tasks. To foster further research in this area, we are open-sourcing the datasets and evaluation framework used in our experiments: https://huggingface.co/datasets/baharef/ToT.

Summary

AI-Generated Summary

PDF281December 6, 2024