ChatPaper.aiChatPaper

Avaliação Comparativa do Raciocínio Temporal e Alinhamento ao Longo das Dinastias Chinesas

Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties

February 24, 2025
Autores: Zhenglin Wang, Jialong Wu, Pengfei LI, Yong Jiang, Deyu Zhou
cs.AI

Resumo

O raciocínio temporal é fundamental para a cognição humana e é crucial para diversas aplicações do mundo real. Embora avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) tenham demonstrado capacidades promissoras em raciocínio temporal, os benchmarks existentes dependem principalmente de construções baseadas em regras, carecem de profundidade contextual e envolvem um conjunto limitado de entidades temporais. Para abordar essas limitações, introduzimos o Chinese Time Reasoning (CTM), um benchmark projetado para avaliar LLMs no raciocínio temporal dentro do amplo escopo da cronologia dinástica chinesa. O CTM enfatiza relações entre entidades, alinhamento temporal par a par e raciocínio contextualizado e culturalmente fundamentado, proporcionando uma avaliação abrangente. Resultados experimentais extensivos revelam os desafios impostos pelo CTM e destacam possíveis caminhos para melhoria.
English
Temporal reasoning is fundamental to human cognition and is crucial for various real-world applications. While recent advances in Large Language Models have demonstrated promising capabilities in temporal reasoning, existing benchmarks primarily rely on rule-based construction, lack contextual depth, and involve a limited range of temporal entities. To address these limitations, we introduce Chinese Time Reasoning (CTM), a benchmark designed to evaluate LLMs on temporal reasoning within the extensive scope of Chinese dynastic chronology. CTM emphasizes cross-entity relationships, pairwise temporal alignment, and contextualized and culturally-grounded reasoning, providing a comprehensive evaluation. Extensive experimental results reveal the challenges posed by CTM and highlight potential avenues for improvement.

Summary

AI-Generated Summary

PDF84February 25, 2025