Escalonando o Raciocínio de Código Aberto para Prever o Futuro
Scaling Open-Ended Reasoning to Predict the Future
December 31, 2025
Autores: Nikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping
cs.AI
Resumo
A tomada de decisões de alto risco envolve o raciocínio sob incerteza sobre o futuro. Neste trabalho, treinamos modelos de linguagem para fazer previsões sobre questões de previsão abertas. Para dimensionar os dados de treinamento, sintetizamos novas questões de previsão a partir de eventos globais relatados em notícias diárias, usando uma receita de curadoria cuidadosa e totalmente automatizada. Treinamos os modelos de pensamento Qwen3 em nosso conjunto de dados, o OpenForesight. Para evitar o vazamento de informações futuras durante o treinamento e a avaliação, usamos um corpus de notícias offline, tanto para a geração de dados quanto para a recuperação em nosso sistema de previsão. Guiados por um pequeno conjunto de validação, mostramos os benefícios da recuperação de informações e de uma função de recompensa aprimorada para o aprendizado por reforço (RL). Uma vez obtido nosso sistema de previsão final, realizamos testes retidos entre maio e agosto de 2025. Nosso modelo especializado, OpenForecaster 8B, equipara-se a modelos proprietários muito maiores, com nosso treinamento melhorando a precisão, a calibração e a consistência das previsões. Descobrimos que as melhorias de calibração provenientes do treinamento em previsão generalizam-se em benchmarks populares. Disponibilizamos todo o código, dados e modelos em código aberto para tornar a pesquisa em previsão com modelos de linguagem amplamente acessível.
English
High-stakes decision making involves reasoning under uncertainty about the future. In this work, we train language models to make predictions on open-ended forecasting questions. To scale up training data, we synthesize novel forecasting questions from global events reported in daily news, using a fully automated, careful curation recipe. We train the Qwen3 thinking models on our dataset, OpenForesight. To prevent leakage of future information during training and evaluation, we use an offline news corpus, both for data generation and retrieval in our forecasting system. Guided by a small validation set, we show the benefits of retrieval, and an improved reward function for reinforcement learning (RL). Once we obtain our final forecasting system, we perform held-out testing between May to August 2025. Our specialized model, OpenForecaster 8B, matches much larger proprietary models, with our training improving the accuracy, calibration, and consistency of predictions. We find calibration improvements from forecasting training generalize across popular benchmarks. We open-source all our models, code, and data to make research on language model forecasting broadly accessible.