Résolution des Olympiades de Physique par Apprentissage par Renforcement sur des Simulateurs Physiques

Résumé

Nous avons assisté à des progrès remarquables dans les capacités de raisonnement des LLM avec l’avènement de DeepSeek-R1. Cependant, une grande partie de ces avancées a été alimentée par l’abondance de paires question-réponse (QR) disponibles sur Internet, ce qui constitue un goulot d’étranglement majeur pour l’avenir, car ces données sont limitées en volume et concentrées principalement dans des domaines comme les mathématiques. En revanche, d’autres sciences telles que la physique manquent de jeux de données QR à grande échelle pour entraîner efficacement des modèles capables de raisonnement. Dans ce travail, nous montrons que les simulateurs physiques peuvent servir de source alternative puissante de supervision pour l’entraînement des LLM au raisonnement physique. Nous générons des scènes aléatoires dans des moteurs physiques, créons des paires question-réponse synthétiques à partir d’interactions simulées, et entraînons les LLM en utilisant l’apprentissage par renforcement sur ces données synthétiques. Nos modèles présentent un transfert zero-shot du simulateur vers la réalité sur des benchmarks de physique du monde réel : par exemple, un entraînement exclusivement sur des données simulées synthétiques améliore les performances sur les problèmes des Olympiades Internationales de Physique (IPhO) de 5 à 10 points de pourcentage, quelle que soit la taille des modèles. Ces résultats démontrent que les simulateurs physiques peuvent agir comme des générateurs de données évolutifs, permettant aux LLM d’acquérir des compétences profondes en raisonnement physique au-delà des limitations des données QR à l’échelle d’Internet. Code disponible à l’adresse : https://sim2reason.github.io/.

English

We have witnessed remarkable advances in LLM reasoning capabilities with the advent of DeepSeek-R1. However, much of this progress has been fueled by the abundance of internet question-answer (QA) pairs, a major bottleneck going forward, since such data is limited in scale and concentrated mainly in domains like mathematics. In contrast, other sciences such as physics lack large-scale QA datasets to effectively train reasoning-capable models. In this work, we show that physics simulators can serve as a powerful alternative source of supervision for training LLMs for physical reasoning. We generate random scenes in physics engines, create synthetic question-answer pairs from simulated interactions, and train LLMs using reinforcement learning on this synthetic data. Our models exhibit zero-shot sim-to-real transfer to real-world physics benchmarks: for example, training solely on synthetic simulated data improves performance on IPhO (International Physics Olympiad) problems by 5-10 percentage points across model sizes. These results demonstrate that physics simulators can act as scalable data generators, enabling LLMs to acquire deep physical reasoning skills beyond the limitations of internet-scale QA data. Code available at: https://sim2reason.github.io/.

Résolution des Olympiades de Physique par Apprentissage par Renforcement sur des Simulateurs Physiques

Solving Physics Olympiad via Reinforcement Learning on Physics Simulators

Résumé

Support