ChatPaper.aiChatPaper

Skalierung des offenen Denkens zur Vorhersage der Zukunft

Scaling Open-Ended Reasoning to Predict the Future

December 31, 2025
papers.authors: Nikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping
cs.AI

papers.abstract

Entscheidungen mit weitreichenden Konsequenzen erfordern das Schließen unter Unsicherheit über die Zukunft. In dieser Arbeit trainieren wir Sprachmodelle darauf, Vorhersagen zu offenen Prognosefragen zu treffen. Um die Trainingsdaten zu skalieren, synthetisieren wir neue Prognosefragen aus globalen Ereignissen, über die in Tagesnachrichten berichtet wird, unter Verwendung eines vollständig automatisierten, sorgfältig kuratierten Verfahrens. Wir trainieren die Qwen3-Denkmodelle auf unserem Datensatz OpenForesight. Um das Einfließen zukünftiger Informationen während des Trainings und der Evaluation zu verhindern, verwenden wir ein Offline-Nachrichtenkorpus, sowohl für die Datengenerierung als auch für den Abruf in unserem Prognosesystem. Angeleitet durch einen kleinen Validierungsdatensatz zeigen wir die Vorteile von Retrieval sowie einer verbesserten Belohnungsfunktion für bestärkendes Lernen (Reinforcement Learning, RL). Nachdem wir unser endgültiges Prognosesystem erhalten haben, führen wir einen zurückgehaltenen Test im Zeitraum Mai bis August 2025 durch. Unser spezialisiertes Modell, OpenForecaster 8B, erreicht die Leistung wesentlich größerer proprietärer Modelle, wobei unser Training die Genauigkeit, Kalibrierung und Konsistenz der Vorhersagen verbessert. Wir stellen fest, dass die Kalibrierungsverbesserungen durch das Prognosetraining auf gängige Benchmark-Datensätze generalisieren. Wir veröffentlichen alle unsere Modelle, Code und Daten als Open Source, um die Forschung zur Prognosefähigkeit von Sprachmodellen breit zugänglich zu machen.
English
High-stakes decision making involves reasoning under uncertainty about the future. In this work, we train language models to make predictions on open-ended forecasting questions. To scale up training data, we synthesize novel forecasting questions from global events reported in daily news, using a fully automated, careful curation recipe. We train the Qwen3 thinking models on our dataset, OpenForesight. To prevent leakage of future information during training and evaluation, we use an offline news corpus, both for data generation and retrieval in our forecasting system. Guided by a small validation set, we show the benefits of retrieval, and an improved reward function for reinforcement learning (RL). Once we obtain our final forecasting system, we perform held-out testing between May to August 2025. Our specialized model, OpenForecaster 8B, matches much larger proprietary models, with our training improving the accuracy, calibration, and consistency of predictions. We find calibration improvements from forecasting training generalize across popular benchmarks. We open-source all our models, code, and data to make research on language model forecasting broadly accessible.
PDF121January 2, 2026