Time-R1: LLMにおける包括的時間推論に向けて
Time-R1: Towards Comprehensive Temporal Reasoning in LLMs
May 16, 2025
著者: Zijia Liu, Peixuan Han, Haofei Yu, Haoru Li, Jiaxuan You
cs.AI
要旨
大規模言語モデル(LLMs)は印象的な能力を示すものの、堅牢な時間的知能を欠いており、過去に関する推論と未来の予測および創造的な生成を統合することが困難である。一方、既存の手法は通常、過去のイベントに関する質問応答や基本的な予測といった孤立した時間的スキルを対象としており、特に知識のカットオフを超えるイベントや創造的な先見性を必要とする場合に、汎化能力が低い。これらの制約に対処するため、我々はTime-R1を導入する。これは、中規模(3Bパラメータ)のLLMに包括的な時間的能力(理解、予測、創造的生成)を付与する初めてのフレームワークである。我々のアプローチは、新たな3段階の開発パスを特徴としており、最初の2段階は、慎重に設計された動的なルールベースの報酬システムによって駆動される強化学習(RL)カリキュラムで構成される。このフレームワークは、(1) 歴史的データからの基礎的な時間的理解と論理的なイベント-時間マッピング、(2) 知識のカットオフを超える未来のイベント予測スキルを段階的に構築し、最後に(3) 微調整なしで創造的な未来シナリオ生成への顕著な汎化を可能にする。驚くべきことに、実験では、Time-R1が、高度に挑戦的な未来イベント予測および創造的シナリオ生成のベンチマークにおいて、671Bの最先端モデルDeepSeek-R1を含む200倍以上の大規模モデルを凌駕することが示された。この研究は、慎重に設計された段階的なRL微調整により、より小さく効率的なモデルが優れた時間的性能を達成できることを強く示唆しており、真に時間を意識したAIへの実用的でスケーラブルな道筋を提供する。さらなる研究を促進するため、我々はまた、10年間のニュースデータから派生した大規模なマルチタスク時間的推論データセットTime-Benchと、一連のTime-R1チェックポイントを公開する。
English
Large Language Models (LLMs) demonstrate impressive capabilities but lack
robust temporal intelligence, struggling to integrate reasoning about the past
with predictions and plausible generations of the future. Meanwhile, existing
methods typically target isolated temporal skills, such as question answering
about past events or basic forecasting, and exhibit poor generalization,
particularly when dealing with events beyond their knowledge cutoff or
requiring creative foresight. To address these limitations, we introduce
Time-R1, the first framework to endow a moderate-sized (3B-parameter)
LLM with comprehensive temporal abilities: understanding, prediction, and
creative generation. Our approach features a novel three-stage development
path; the first two constitute a reinforcement learning (RL)
curriculum driven by a meticulously designed dynamic rule-based reward system.
This framework progressively builds (1) foundational temporal understanding and
logical event-time mappings from historical data, (2) future event prediction
skills for events beyond its knowledge cutoff, and finally (3) enables
remarkable generalization to creative future scenario generation without any
fine-tuning. Strikingly, experiments demonstrate that Time-R1 outperforms
models over 200 times larger, including the state-of-the-art 671B DeepSeek-R1,
on highly challenging future event prediction and creative scenario generation
benchmarks. This work provides strong evidence that thoughtfully engineered,
progressive RL fine-tuning allows smaller, efficient models to achieve superior
temporal performance, offering a practical and scalable path towards truly
time-aware AI. To foster further research, we also release Time-Bench,
a large-scale multi-task temporal reasoning dataset derived from 10 years of
news data, and our series of Time-R1 checkpoints.Summary
AI-Generated Summary