物理シミュレータを用いた強化学習による物理オリンピック課題の解法
Solving Physics Olympiad via Reinforcement Learning on Physics Simulators
April 13, 2026
著者: Mihir Prabhudesai, Aryan Satpathy, Yangmin Li, Zheyang Qin, Nikash Bhardwaj, Amir Zadeh, Chuan Li, Katerina Fragkiadaki, Deepak Pathak
cs.AI
要旨
DeepSeek-R1の登場により、大規模言語モデル(LLM)の推論能力には目覚ましい進歩が見られました。しかし、この進歩の大部分はインターネット上の質疑応答(QA)ペアの豊富さに支えられており、そのようなデータは規模が限られており、主に数学などの分野に集中しているため、今後の主要なボトルネックとなっています。対照的に、物理学などの他の科学分野では、推論能力を持つモデルを効果的に訓練するための大規模なQAデータセットが不足しています。本研究では、物理シミュレーターが物理推論のためのLLM訓練における強力な代替監督源となり得ることを示します。物理エンジンでランダムなシーンを生成し、シミュレーションされた相互作用から合成的なQAペアを作成し、この合成的データに対して強化学習を用いてLLMを訓練します。私たちのモデルは、実世界の物理ベンチマークに対してゼロショットのシミュレーションから現実への転移を示しています。例えば、合成的なシミュレーションデータのみで訓練することで、モデルサイズにかかわらず、国際物理オリンピック(IPhO)の問題における性能が5~10パーセントポイント向上します。これらの結果は、物理シミュレーターがスケーラブルなデータ生成器として機能し、インターネット規模のQAデータの限界を超えた深い物理推論スキルをLLMに獲得させ得ることを実証しています。コードは以下で公開されています:https://sim2reason.github.io/
English
We have witnessed remarkable advances in LLM reasoning capabilities with the advent of DeepSeek-R1. However, much of this progress has been fueled by the abundance of internet question-answer (QA) pairs, a major bottleneck going forward, since such data is limited in scale and concentrated mainly in domains like mathematics. In contrast, other sciences such as physics lack large-scale QA datasets to effectively train reasoning-capable models. In this work, we show that physics simulators can serve as a powerful alternative source of supervision for training LLMs for physical reasoning. We generate random scenes in physics engines, create synthetic question-answer pairs from simulated interactions, and train LLMs using reinforcement learning on this synthetic data. Our models exhibit zero-shot sim-to-real transfer to real-world physics benchmarks: for example, training solely on synthetic simulated data improves performance on IPhO (International Physics Olympiad) problems by 5-10 percentage points across model sizes. These results demonstrate that physics simulators can act as scalable data generators, enabling LLMs to acquire deep physical reasoning skills beyond the limitations of internet-scale QA data. Code available at: https://sim2reason.github.io/.