Scalabilità del Ragionamento Aperto per Prevedere il Futuro
Scaling Open-Ended Reasoning to Predict the Future
December 31, 2025
Autori: Nikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping
cs.AI
Abstract
La presa di decisioni ad alto rischio implica il ragionamento in condizioni di incertezza sul futuro. In questo lavoro, addestriamo modelli linguistici a formulare previsioni su domande di forecasting a risposta aperta. Per incrementare i dati di addestramento, sintetizziamo nuove domande previsionali a partire da eventi globali riportati nelle notizie quotidiane, utilizzando una procedura di selezione completamente automatizzata e accurata. Addestriamo i modelli di ragionamento Qwen3 sul nostro dataset, OpenForesight. Per prevenire la fuoriuscita di informazioni future durante l'addestramento e la valutazione, utilizziamo un corpus di notizie offline, sia per la generazione dei dati che per il recupero delle informazioni nel nostro sistema previsionale. Guidati da un piccolo set di validazione, dimostriamo i vantaggi del retrieval e di una funzione di reward migliorata per l'apprendimento per rinforzo (RL). Una volta ottenuto il nostro sistema previsionale finale, eseguiamo test su dati non visti nel periodo da maggio ad agosto 2025. Il nostro modello specializzato, OpenForecaster 8B, eguaglia le prestazioni di modelli proprietari molto più grandi, con il nostro addestramento che migliora l'accuratezza, la calibrazione e la coerenza delle previsioni. Rileviamo che i miglioramenti nella calibrazione ottenuti con l'addestramento al forecasting si generalizzano su benchmark popolari. Rendi-amo open-source tutti i nostri modelli, il codice e i dati per rendere ampiamente accessibile la ricerca sul forecasting con modelli linguistici.
English
High-stakes decision making involves reasoning under uncertainty about the future. In this work, we train language models to make predictions on open-ended forecasting questions. To scale up training data, we synthesize novel forecasting questions from global events reported in daily news, using a fully automated, careful curation recipe. We train the Qwen3 thinking models on our dataset, OpenForesight. To prevent leakage of future information during training and evaluation, we use an offline news corpus, both for data generation and retrieval in our forecasting system. Guided by a small validation set, we show the benefits of retrieval, and an improved reward function for reinforcement learning (RL). Once we obtain our final forecasting system, we perform held-out testing between May to August 2025. Our specialized model, OpenForecaster 8B, matches much larger proprietary models, with our training improving the accuracy, calibration, and consistency of predictions. We find calibration improvements from forecasting training generalize across popular benchmarks. We open-source all our models, code, and data to make research on language model forecasting broadly accessible.