ChatPaper.aiChatPaper

중국 왕조 간 시간적 추론 및 정렬 성능 벤치마킹

Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties

February 24, 2025
저자: Zhenglin Wang, Jialong Wu, Pengfei LI, Yong Jiang, Deyu Zhou
cs.AI

초록

시간적 추론은 인간 인지의 기본 요소이며 다양한 실세계 응용에 있어 핵심적입니다. 대규모 언어 모델(LLM)의 최근 발전은 시간적 추론에서 유망한 능력을 보여주었지만, 기존 벤치마크는 주로 규칙 기반 구축에 의존하고, 문맥적 깊이가 부족하며, 제한된 범위의 시간적 개체만을 다룹니다. 이러한 한계를 해결하기 위해, 우리는 중국 왕조 연대기의 광범위한 범위 내에서 LLM의 시간적 추론 능력을 평가하기 위해 설계된 벤치마크인 중국 시간 추론(CTM)을 소개합니다. CTM은 교차 개체 관계, 쌍별 시간 정렬, 문맥화 및 문화적 기반 추론을 강조하며, 포괄적인 평가를 제공합니다. 광범위한 실험 결과는 CTM이 제기하는 도전 과제를 보여주고 개선 가능한 잠재적 방향을 강조합니다.
English
Temporal reasoning is fundamental to human cognition and is crucial for various real-world applications. While recent advances in Large Language Models have demonstrated promising capabilities in temporal reasoning, existing benchmarks primarily rely on rule-based construction, lack contextual depth, and involve a limited range of temporal entities. To address these limitations, we introduce Chinese Time Reasoning (CTM), a benchmark designed to evaluate LLMs on temporal reasoning within the extensive scope of Chinese dynastic chronology. CTM emphasizes cross-entity relationships, pairwise temporal alignment, and contextualized and culturally-grounded reasoning, providing a comprehensive evaluation. Extensive experimental results reveal the challenges posed by CTM and highlight potential avenues for improvement.

Summary

AI-Generated Summary

PDF84February 25, 2025