Prueba del Tiempo: Un Punto de Referencia para Evaluar Modelos de Lenguaje en el Razonamiento Temporal
Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning
June 13, 2024
Autores: Bahare Fatemi, Mehran Kazemi, Anton Tsitsulin, Karishma Malkan, Jinyeong Yim, John Palowitch, Sungyong Seo, Jonathan Halcrow, Bryan Perozzi
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades de razonamiento notables, pero siguen siendo susceptibles a errores, particularmente en tareas de razonamiento temporal que involucran lógica temporal compleja. Investigaciones existentes han explorado el rendimiento de los LLMs en razonamiento temporal utilizando diversos conjuntos de datos y puntos de referencia. Sin embargo, estos estudios a menudo se basan en datos del mundo real que los LLMs podrían haber encontrado durante su preentrenamiento o emplean técnicas de anonimización que pueden introducir inconsistencias fácticas de manera inadvertida. En este trabajo, abordamos estas limitaciones introduciendo nuevos conjuntos de datos sintéticos diseñados específicamente para evaluar las habilidades de razonamiento temporal de los LLMs en diversos escenarios. La diversidad de tipos de preguntas en estos conjuntos de datos permite una investigación sistemática del impacto de la estructura del problema, el tamaño, el tipo de pregunta, el orden de los hechos y otros factores en el rendimiento de los LLMs. Nuestros hallazgos proporcionan información valiosa sobre las fortalezas y debilidades de los LLMs actuales en tareas de razonamiento temporal. Para fomentar más investigación en esta área, estamos haciendo públicos los conjuntos de datos y el marco de evaluación utilizados en nuestros experimentos: https://huggingface.co/datasets/baharef/ToT.
English
Large language models (LLMs) have showcased remarkable reasoning
capabilities, yet they remain susceptible to errors, particularly in temporal
reasoning tasks involving complex temporal logic. Existing research has
explored LLM performance on temporal reasoning using diverse datasets and
benchmarks. However, these studies often rely on real-world data that LLMs may
have encountered during pre-training or employ anonymization techniques that
can inadvertently introduce factual inconsistencies. In this work, we address
these limitations by introducing novel synthetic datasets specifically designed
to assess LLM temporal reasoning abilities in various scenarios. The diversity
of question types across these datasets enables systematic investigation into
the impact of the problem structure, size, question type, fact order, and other
factors on LLM performance. Our findings provide valuable insights into the
strengths and weaknesses of current LLMs in temporal reasoning tasks. To foster
further research in this area, we are open-sourcing the datasets and evaluation
framework used in our experiments: https://huggingface.co/datasets/baharef/ToT.Summary
AI-Generated Summary