Zeitprüfung: Ein Benchmark zur Bewertung von LLMs in Bezug auf zeitliches Denken
Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning
June 13, 2024
Autoren: Bahare Fatemi, Mehran Kazemi, Anton Tsitsulin, Karishma Malkan, Jinyeong Yim, John Palowitch, Sungyong Seo, Jonathan Halcrow, Bryan Perozzi
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Argumentationsfähigkeiten gezeigt, bleiben jedoch anfällig für Fehler, insbesondere bei zeitlichen Argumentationsaufgaben, die komplexe zeitliche Logik beinhalten. Die bestehende Forschung hat die Leistung von LLMs bei zeitlicher Argumentation unter Verwendung verschiedener Datensätze und Benchmarks untersucht. Diese Studien stützen sich jedoch oft auf realweltliche Daten, die LLMs während des Vortrainings begegnet sein könnten, oder verwenden Anonymisierungstechniken, die unbeabsichtigt sachliche Inkonsistenzen einführen können. In dieser Arbeit begegnen wir diesen Einschränkungen, indem wir neuartige synthetische Datensätze vorstellen, die speziell zur Bewertung der zeitlichen Argumentationsfähigkeiten von LLMs in verschiedenen Szenarien konzipiert sind. Die Vielfalt der Fragetypen in diesen Datensätzen ermöglicht eine systematische Untersuchung der Auswirkungen der Problemstruktur, Größe, Fragetypen, Faktanordnung und anderer Faktoren auf die Leistung von LLMs. Unsere Ergebnisse liefern wertvolle Einblicke in die Stärken und Schwächen aktueller LLMs bei zeitlichen Argumentationsaufgaben. Um weitere Forschung in diesem Bereich zu fördern, stellen wir die in unseren Experimenten verwendeten Datensätze und Bewertungsrahmen als Open Source zur Verfügung: https://huggingface.co/datasets/baharef/ToT.
English
Large language models (LLMs) have showcased remarkable reasoning
capabilities, yet they remain susceptible to errors, particularly in temporal
reasoning tasks involving complex temporal logic. Existing research has
explored LLM performance on temporal reasoning using diverse datasets and
benchmarks. However, these studies often rely on real-world data that LLMs may
have encountered during pre-training or employ anonymization techniques that
can inadvertently introduce factual inconsistencies. In this work, we address
these limitations by introducing novel synthetic datasets specifically designed
to assess LLM temporal reasoning abilities in various scenarios. The diversity
of question types across these datasets enables systematic investigation into
the impact of the problem structure, size, question type, fact order, and other
factors on LLM performance. Our findings provide valuable insights into the
strengths and weaknesses of current LLMs in temporal reasoning tasks. To foster
further research in this area, we are open-sourcing the datasets and evaluation
framework used in our experiments: https://huggingface.co/datasets/baharef/ToT.Summary
AI-Generated Summary