ChatPaper.aiChatPaper

개방형 추론의 확장을 통한 미래 예측

Scaling Open-Ended Reasoning to Predict the Future

December 31, 2025
저자: Nikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping
cs.AI

초록

고위험 의사 결정은 미래에 대한 불확실성 속에서 이뤄지는 추론 과정을 수반합니다. 본 연구에서는 언어 모델이 개방형 예측 질문에 대한 예측을 수행하도록 훈련시킵니다. 훈련 데이터를 확장하기 위해 일일 뉴스에 보도된 글로벌 이슈로부터 새로운 예측 질문을 합성하는 완전 자동화된 신중한 데이터 선별 방법을 사용합니다. 우리는 OpenForesight 데이터셋으로 Qwen3 사고 모델을 훈련합니다. 훈련 및 평가 중 미래 정보 유출을 방지하기 위해 예측 시스템의 데이터 생성과 검색 모두에 오프라인 뉴스 코퍼스를 활용합니다. 소규모 검증 세트의 지도를 통해 검색의 이점과 강화 학습(RL)을 위한 개선된 보상 함수의 효과를 입증합니다. 최종 예측 시스템을 확보한 후, 2025년 5월부터 8월까지 보유 데이터를 활용한 실험을 수행합니다. 우리의 전문화된 모델인 OpenForecaster 8B는 상용 대형 모델에 버금가는 성능을 보이며, 훈련을 통해 예측의 정확도, 보정(calibration), 일관성이 개선됩니다. 예측 훈련을 통한 보정 개선 효과는 널리 사용되는 벤치마크에서도 일반화됨을 확인합니다. 언어 모델 예측 연구의 광범위한 접근성을 위해 모든 모델, 코드, 데이터를 오픈소스로 공개합니다.
English
High-stakes decision making involves reasoning under uncertainty about the future. In this work, we train language models to make predictions on open-ended forecasting questions. To scale up training data, we synthesize novel forecasting questions from global events reported in daily news, using a fully automated, careful curation recipe. We train the Qwen3 thinking models on our dataset, OpenForesight. To prevent leakage of future information during training and evaluation, we use an offline news corpus, both for data generation and retrieval in our forecasting system. Guided by a small validation set, we show the benefits of retrieval, and an improved reward function for reinforcement learning (RL). Once we obtain our final forecasting system, we perform held-out testing between May to August 2025. Our specialized model, OpenForecaster 8B, matches much larger proprietary models, with our training improving the accuracy, calibration, and consistency of predictions. We find calibration improvements from forecasting training generalize across popular benchmarks. We open-source all our models, code, and data to make research on language model forecasting broadly accessible.
PDF121January 2, 2026