Resolución de Olimpiadas de Física mediante Aprendizaje por Refuerzo en Simuladores de Física

Resumen

Hemos presenciado avances notables en las capacidades de razonamiento de los LLM con la llegada de DeepSeek-R1. Sin embargo, gran parte de este progreso se ha basado en la abundancia de pares pregunta-respuesta (QA) de internet, lo que supone un cuello de botella importante para el futuro, ya que dichos datos son limitados en escala y se concentran principalmente en dominios como las matemáticas. Por el contrario, otras ciencias como la física carecen de conjuntos de datos QA a gran escala para entrenar eficazmente modelos con capacidad de razonamiento. En este trabajo, demostramos que los simuladores de física pueden servir como una alternativa poderosa de supervisión para entrenar LLMs en el razonamiento físico. Generamos escenas aleatorias en motores de física, creamos pares pregunta-respuesta sintéticos a partir de interacciones simuladas y entrenamos LLMs usando aprendizaje por refuerzo con estos datos sintéticos. Nuestros modelos exhiben una transferencia *sim-to-real* (del simulador a la realidad) en modo *zero-shot* a benchmarks de física del mundo real: por ejemplo, entrenar únicamente con datos sintéticos simulados mejora el rendimiento en problemas de la Olimpiada Internacional de Física (IPhO) entre 5 y 10 puntos porcentuales en todos los tamaños de modelo. Estos resultados demuestran que los simuladores de física pueden actuar como generadores de datos escalables, permitiendo a los LLM adquirir habilidades profundas de razonamiento físico más allá de las limitaciones de los datos QA a escala de internet. Código disponible en: https://sim2reason.github.io/.

English

We have witnessed remarkable advances in LLM reasoning capabilities with the advent of DeepSeek-R1. However, much of this progress has been fueled by the abundance of internet question-answer (QA) pairs, a major bottleneck going forward, since such data is limited in scale and concentrated mainly in domains like mathematics. In contrast, other sciences such as physics lack large-scale QA datasets to effectively train reasoning-capable models. In this work, we show that physics simulators can serve as a powerful alternative source of supervision for training LLMs for physical reasoning. We generate random scenes in physics engines, create synthetic question-answer pairs from simulated interactions, and train LLMs using reinforcement learning on this synthetic data. Our models exhibit zero-shot sim-to-real transfer to real-world physics benchmarks: for example, training solely on synthetic simulated data improves performance on IPhO (International Physics Olympiad) problems by 5-10 percentage points across model sizes. These results demonstrate that physics simulators can act as scalable data generators, enabling LLMs to acquire deep physical reasoning skills beyond the limitations of internet-scale QA data. Code available at: https://sim2reason.github.io/.

Resolución de Olimpiadas de Física mediante Aprendizaje por Refuerzo en Simuladores de Física

Solving Physics Olympiad via Reinforcement Learning on Physics Simulators

Resumen

Support