ChatPaper.aiChatPaper

Escalando el razonamiento de mente abierta para predecir el futuro

Scaling Open-Ended Reasoning to Predict the Future

December 31, 2025
Autores: Nikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping
cs.AI

Resumen

La toma de decisiones de alto riesgo implica razonar bajo incertidumbre sobre el futuro. En este trabajo, entrenamos modelos de lenguaje para realizar predicciones sobre preguntas de pronóstico de respuesta abierta. Para escalar los datos de entrenamiento, sintetizamos nuevas preguntas de pronóstico a partir de eventos globales reportados en noticias diarias, utilizando una receta de curación cuidadosa y completamente automatizada. Entrenamos los modelos de razonamiento Qwen3 en nuestro conjunto de datos, OpenForesight. Para evitar la filtración de información futura durante el entrenamiento y la evaluación, utilizamos un corpus de noticias sin conexión, tanto para la generación de datos como para la recuperación en nuestro sistema de pronóstico. Guiados por un pequeño conjunto de validación, demostramos los beneficios de la recuperación de información y una función de recompensa mejorada para el aprendizaje por refuerzo (RL). Una vez obtenido nuestro sistema de pronóstico final, realizamos pruebas con datos reservados entre mayo y agosto de 2025. Nuestro modelo especializado, OpenForecaster 8B, iguala el rendimiento de modelos propietarios mucho más grandes, ya que nuestro entrenamiento mejora la precisión, la calibración y la coherencia de las predicciones. Encontramos que las mejoras en calibración derivadas del entrenamiento en pronóstico se generalizan en varios puntos de referencia populares. Liberamos como código abierto todos nuestros modelos, código y datos para que la investigación sobre pronósticos con modelos de lenguaje sea ampliamente accesible.
English
High-stakes decision making involves reasoning under uncertainty about the future. In this work, we train language models to make predictions on open-ended forecasting questions. To scale up training data, we synthesize novel forecasting questions from global events reported in daily news, using a fully automated, careful curation recipe. We train the Qwen3 thinking models on our dataset, OpenForesight. To prevent leakage of future information during training and evaluation, we use an offline news corpus, both for data generation and retrieval in our forecasting system. Guided by a small validation set, we show the benefits of retrieval, and an improved reward function for reinforcement learning (RL). Once we obtain our final forecasting system, we perform held-out testing between May to August 2025. Our specialized model, OpenForecaster 8B, matches much larger proprietary models, with our training improving the accuracy, calibration, and consistency of predictions. We find calibration improvements from forecasting training generalize across popular benchmarks. We open-source all our models, code, and data to make research on language model forecasting broadly accessible.
PDF121January 2, 2026