Mettre à l'échelle le raisonnement ouvert pour prédire l'avenir
Scaling Open-Ended Reasoning to Predict the Future
December 31, 2025
papers.authors: Nikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping
cs.AI
papers.abstract
La prise de décision à enjeux élevés implique un raisonnement sous incertitude concernant le futur. Dans ce travail, nous entraînons des modèles de langage à effectuer des prédictions sur des questions de prévision ouvertes. Pour augmenter le volume de données d'entraînement, nous synthétisons de nouvelles questions prévisionnelles à partir d'événements mondiaux rapportés dans l'actualité quotidienne, en utilisant une méthode de curation rigoureuse entièrement automatisée. Nous entraînons les modèles de raisonnement Qwen3 sur notre jeu de données, OpenForesight. Pour éviter toute fuite d'informations futures pendant l'entraînement et l'évaluation, nous utilisons un corpus d'actualités hors ligne, à la fois pour la génération de données et le système de recherche de notre système de prévision. Guidés par un petit ensemble de validation, nous démontrons les bénéfices de la recherche documentaire et d'une fonction de récompense améliorée pour l'apprentissage par renforcement (RL). Une fois notre système de prévision final obtenu, nous effectuons des tests sur données masquées entre mai et août 2025. Notre modèle spécialisé, OpenForecaster 8B, rivalise avec des modèles propriétaires bien plus grands, notre entraînement améliorant la précision, l'étalonnage et la cohérence des prédictions. Nous constatons que les améliorations d'étalonnage issues de l'entraînement prévisionnel se généralisent à travers les benchmarks populaires. Nous ouvrons en accès libre l'ensemble de nos modèles, codes et données pour rendre la recherche sur la prévision par modèles de langage largement accessible.
English
High-stakes decision making involves reasoning under uncertainty about the future. In this work, we train language models to make predictions on open-ended forecasting questions. To scale up training data, we synthesize novel forecasting questions from global events reported in daily news, using a fully automated, careful curation recipe. We train the Qwen3 thinking models on our dataset, OpenForesight. To prevent leakage of future information during training and evaluation, we use an offline news corpus, both for data generation and retrieval in our forecasting system. Guided by a small validation set, we show the benefits of retrieval, and an improved reward function for reinforcement learning (RL). Once we obtain our final forecasting system, we perform held-out testing between May to August 2025. Our specialized model, OpenForecaster 8B, matches much larger proprietary models, with our training improving the accuracy, calibration, and consistency of predictions. We find calibration improvements from forecasting training generalize across popular benchmarks. We open-source all our models, code, and data to make research on language model forecasting broadly accessible.