ChatPaper.aiChatPaper

Масштабирование открытого рассуждения для прогнозирования будущего

Scaling Open-Ended Reasoning to Predict the Future

December 31, 2025
Авторы: Nikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping
cs.AI

Аннотация

Принятие решений в условиях высокой неопределенности требует прогнозирования будущего в ситуации неполной информации. В данной работе мы обучаем языковые модели делать прогнозы по открытым вопросам прогнозирования. Для масштабирования обучающих данных мы синтезируем новые прогностические вопросы на основе глобальных событий из ежедневных новостей, используя полностью автоматизированный и тщательно проработанный метод курации. Мы обучаем модели мышления Qwen3 на нашем наборе данных OpenForesight. Чтобы исключить утечку информации о будущих событиях во время обучения и оценки, мы используем офлайн-корпус новостей как для генерации данных, так и для поиска в нашей системе прогнозирования. Руководствуясь небольшой валидационной выборкой, мы демонстрируем преимущества поиска информации и усовершенствованной функции вознаграждения для обучения с подкреплением (RL). После создания финальной системы прогнозирования мы проводим тестирование на отложенной выборке за период с мая по август 2025 года. Наша специализированная модель OpenForecaster 8B сопоставима по эффективности с гораздо более крупными проприетарными моделями, при этом наше обучение улучшает точность, калибровку и согласованность прогнозов. Мы обнаружили, что улучшения калибровки благодаря обучению прогнозированию обобщаются на популярные бенчмарки. Мы открываем исходный код всех наших моделей, алгоритмов и данных, чтобы сделать исследования по прогнозированию на языковых моделях широкодоступными.
English
High-stakes decision making involves reasoning under uncertainty about the future. In this work, we train language models to make predictions on open-ended forecasting questions. To scale up training data, we synthesize novel forecasting questions from global events reported in daily news, using a fully automated, careful curation recipe. We train the Qwen3 thinking models on our dataset, OpenForesight. To prevent leakage of future information during training and evaluation, we use an offline news corpus, both for data generation and retrieval in our forecasting system. Guided by a small validation set, we show the benefits of retrieval, and an improved reward function for reinforcement learning (RL). Once we obtain our final forecasting system, we perform held-out testing between May to August 2025. Our specialized model, OpenForecaster 8B, matches much larger proprietary models, with our training improving the accuracy, calibration, and consistency of predictions. We find calibration improvements from forecasting training generalize across popular benchmarks. We open-source all our models, code, and data to make research on language model forecasting broadly accessible.
PDF121January 2, 2026