オープンエンド推論のスケーリングによる未来予測
Scaling Open-Ended Reasoning to Predict the Future
December 31, 2025
著者: Nikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping
cs.AI
要旨
高リスク意思決定は、将来の不確実性を伴う推論を必要とします。本研究では、言語モデルに対してオープンエンドな予測質問に関する予測を行うよう訓練します。訓練データを拡大するため、日々のニュースで報道される国際的な出来事から、完全に自動化された注意深い選定レシピを用いて新規の予測質問を合成します。私たちはOpenForesightデータセットを用いてQwen3思考モデルを訓練しました。訓練と評価における将来情報の漏洩を防ぐため、データ生成と予測システムにおける検索の両方にオフラインニュースコーパスを採用しています。小規模な検証セットに基づき、検索の利点と、強化学習(RL)における改良された報酬関数の効果を実証します。最終的な予測システムを構築後、2025年5月から8月にかけて保留検定を実施しました。専門化されたモデルであるOpenForecaster 8Bは、はるかに大規模なプロプライエタリモデルに匹敵する性能を示し、私たちの訓練が予測の精度、較正、一貫性を向上させることが確認されました。予測訓練による較正の改善効果は、一般的なベンチマーク全体に一般化することが分かりました。言語モデル予測に関する研究の広範な発展を促進するため、すべてのモデル、コード、データをオープンソースとして公開します。
English
High-stakes decision making involves reasoning under uncertainty about the future. In this work, we train language models to make predictions on open-ended forecasting questions. To scale up training data, we synthesize novel forecasting questions from global events reported in daily news, using a fully automated, careful curation recipe. We train the Qwen3 thinking models on our dataset, OpenForesight. To prevent leakage of future information during training and evaluation, we use an offline news corpus, both for data generation and retrieval in our forecasting system. Guided by a small validation set, we show the benefits of retrieval, and an improved reward function for reinforcement learning (RL). Once we obtain our final forecasting system, we perform held-out testing between May to August 2025. Our specialized model, OpenForecaster 8B, matches much larger proprietary models, with our training improving the accuracy, calibration, and consistency of predictions. We find calibration improvements from forecasting training generalize across popular benchmarks. We open-source all our models, code, and data to make research on language model forecasting broadly accessible.