ChatPaper.aiChatPaper

中国王朝における時間的推論と整合性のベンチマーキング

Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties

February 24, 2025
著者: Zhenglin Wang, Jialong Wu, Pengfei LI, Yong Jiang, Deyu Zhou
cs.AI

要旨

時間的推論は人間の認知において基本的な要素であり、様々な実世界のアプリケーションにおいて極めて重要です。大規模言語モデル(LLM)の最近の進展は時間的推論において有望な能力を示していますが、既存のベンチマークは主にルールベースの構築に依存しており、文脈的な深さが欠如しており、限られた範囲の時間的エンティティしか扱っていません。これらの制限に対処するため、私たちは中国王朝の年表という広範な範囲内でLLMの時間的推論を評価するためのベンチマークであるChinese Time Reasoning(CTM)を導入します。CTMは、エンティティ間の関係、ペアワイズの時間的整合、文脈化された文化的基盤に基づく推論を重視し、包括的な評価を提供します。広範な実験結果は、CTMが提示する課題を明らかにし、改善のための潜在的な方向性を強調しています。
English
Temporal reasoning is fundamental to human cognition and is crucial for various real-world applications. While recent advances in Large Language Models have demonstrated promising capabilities in temporal reasoning, existing benchmarks primarily rely on rule-based construction, lack contextual depth, and involve a limited range of temporal entities. To address these limitations, we introduce Chinese Time Reasoning (CTM), a benchmark designed to evaluate LLMs on temporal reasoning within the extensive scope of Chinese dynastic chronology. CTM emphasizes cross-entity relationships, pairwise temporal alignment, and contextualized and culturally-grounded reasoning, providing a comprehensive evaluation. Extensive experimental results reveal the challenges posed by CTM and highlight potential avenues for improvement.

Summary

AI-Generated Summary

PDF84February 25, 2025