ChatPaper.aiChatPaper

Het Opschalen van Open-Einde Redeneren om de Toekomst te Voorspellen

Scaling Open-Ended Reasoning to Predict the Future

December 31, 2025
Auteurs: Nikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping
cs.AI

Samenvatting

Hoog-risicobesluitvorming vereist redeneren onder onzekerheid over de toekomst. In dit werk trainen we taalmodellen om voorspellingen te doen over open voorspellingsvragen. Om trainingsdata op te schalen, synthetiseren we nieuwe voorspellingsvragen uit mondiale gebeurtenissen in dagelijkse nieuwsberichten, met behulp van een volledig geautomatiseerd, zorgvuldig samengesteld recept. We trainen de Qwen3-denkmodellen op onze dataset, OpenForesight. Om lekken van toekomstige informatie tijdens training en evaluatie te voorkomen, gebruiken we een offline nieuwscorpus, zowel voor datageneratie als retrieval in ons voorspellingssysteem. Geleid door een kleine validatieset, tonen we de voordelen van retrieval en een verbeterde beloningsfunctie voor reinforcement learning (RL). Nadat we ons definitieve voorspellingssysteem hebben verkregen, voeren we een afgezonderde test uit tussen mei en augustus 2025. Ons gespecialiseerde model, OpenForecaster 8B, evenaart veel grotere propriëtaire modellen, waarbij onze training de nauwkeurigheid, calibratie en consistentie van voorspellingen verbetert. We constateren dat calibratieverbeteringen door voorspellingstraining generaliseren over populaire benchmarks. We maken al onze modellen, code en data open source om onderzoek naar voorspellingen met taalmodellen breed toegankelijk te maken.
English
High-stakes decision making involves reasoning under uncertainty about the future. In this work, we train language models to make predictions on open-ended forecasting questions. To scale up training data, we synthesize novel forecasting questions from global events reported in daily news, using a fully automated, careful curation recipe. We train the Qwen3 thinking models on our dataset, OpenForesight. To prevent leakage of future information during training and evaluation, we use an offline news corpus, both for data generation and retrieval in our forecasting system. Guided by a small validation set, we show the benefits of retrieval, and an improved reward function for reinforcement learning (RL). Once we obtain our final forecasting system, we perform held-out testing between May to August 2025. Our specialized model, OpenForecaster 8B, matches much larger proprietary models, with our training improving the accuracy, calibration, and consistency of predictions. We find calibration improvements from forecasting training generalize across popular benchmarks. We open-source all our models, code, and data to make research on language model forecasting broadly accessible.
PDF133January 4, 2026