Avaliação Comparativa do Raciocínio Temporal e Alinhamento ao Longo das Dinastias Chinesas
Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties
February 24, 2025
Autores: Zhenglin Wang, Jialong Wu, Pengfei LI, Yong Jiang, Deyu Zhou
cs.AI
Resumo
O raciocínio temporal é fundamental para a cognição humana e é crucial para diversas aplicações do mundo real. Embora avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) tenham demonstrado capacidades promissoras em raciocínio temporal, os benchmarks existentes dependem principalmente de construções baseadas em regras, carecem de profundidade contextual e envolvem um conjunto limitado de entidades temporais. Para abordar essas limitações, introduzimos o Chinese Time Reasoning (CTM), um benchmark projetado para avaliar LLMs no raciocínio temporal dentro do amplo escopo da cronologia dinástica chinesa. O CTM enfatiza relações entre entidades, alinhamento temporal par a par e raciocínio contextualizado e culturalmente fundamentado, proporcionando uma avaliação abrangente. Resultados experimentais extensivos revelam os desafios impostos pelo CTM e destacam possíveis caminhos para melhoria.
English
Temporal reasoning is fundamental to human cognition and is crucial for
various real-world applications. While recent advances in Large Language Models
have demonstrated promising capabilities in temporal reasoning, existing
benchmarks primarily rely on rule-based construction, lack contextual depth,
and involve a limited range of temporal entities. To address these limitations,
we introduce Chinese Time Reasoning (CTM), a benchmark designed to evaluate
LLMs on temporal reasoning within the extensive scope of Chinese dynastic
chronology. CTM emphasizes cross-entity relationships, pairwise temporal
alignment, and contextualized and culturally-grounded reasoning, providing a
comprehensive evaluation. Extensive experimental results reveal the challenges
posed by CTM and highlight potential avenues for improvement.Summary
AI-Generated Summary