Teste do Tempo: Um Benchmark para Avaliação de Modelos de Linguagem em Raciocínio Temporal
Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning
June 13, 2024
Autores: Bahare Fatemi, Mehran Kazemi, Anton Tsitsulin, Karishma Malkan, Jinyeong Yim, John Palowitch, Sungyong Seo, Jonathan Halcrow, Bryan Perozzi
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades notáveis de raciocínio, mas ainda são suscetíveis a erros, especialmente em tarefas de raciocínio temporal que envolvem lógica temporal complexa. Pesquisas existentes exploraram o desempenho de LLMs em raciocínio temporal utilizando diversos conjuntos de dados e benchmarks. No entanto, esses estudos frequentemente se baseiam em dados do mundo real que os LLMs podem ter encontrado durante o pré-treinamento ou empregam técnicas de anonimização que podem inadvertidamente introduzir inconsistências factuais. Neste trabalho, abordamos essas limitações introduzindo novos conjuntos de dados sintéticos especificamente projetados para avaliar as habilidades de raciocínio temporal dos LLMs em vários cenários. A diversidade de tipos de perguntas nesses conjuntos de dados permite uma investigação sistemática do impacto da estrutura do problema, tamanho, tipo de pergunta, ordem dos fatos e outros fatores no desempenho dos LLMs. Nossas descobertas fornecem insights valiosos sobre as forças e fraquezas dos LLMs atuais em tarefas de raciocínio temporal. Para promover pesquisas adicionais nessa área, estamos disponibilizando publicamente os conjuntos de dados e o framework de avaliação utilizados em nossos experimentos: https://huggingface.co/datasets/baharef/ToT.
English
Large language models (LLMs) have showcased remarkable reasoning
capabilities, yet they remain susceptible to errors, particularly in temporal
reasoning tasks involving complex temporal logic. Existing research has
explored LLM performance on temporal reasoning using diverse datasets and
benchmarks. However, these studies often rely on real-world data that LLMs may
have encountered during pre-training or employ anonymization techniques that
can inadvertently introduce factual inconsistencies. In this work, we address
these limitations by introducing novel synthetic datasets specifically designed
to assess LLM temporal reasoning abilities in various scenarios. The diversity
of question types across these datasets enables systematic investigation into
the impact of the problem structure, size, question type, fact order, and other
factors on LLM performance. Our findings provide valuable insights into the
strengths and weaknesses of current LLMs in temporal reasoning tasks. To foster
further research in this area, we are open-sourcing the datasets and evaluation
framework used in our experiments: https://huggingface.co/datasets/baharef/ToT.