Lösen von Physik-Olympiaden durch Reinforcement Learning auf Physiksimulatoren

Zusammenfassung

Wir haben bemerkenswerte Fortschritte bei den Reasoning-Fähigkeiten von LLMs mit dem Aufkommen von DeepSeek-R1 beobachtet. Dieser Fortschritt wurde jedoch größtenteils durch die Fülle an Frage-Antwort-Paaren (QA) aus dem Internet befeuert, was zukünftig einen großen Engpass darstellt, da solche Daten in ihrem Umfang begrenzt und hauptsächlich auf Domänen wie Mathematik konzentriert sind. Im Gegensatz dazu mangelt es in anderen Wissenschaften wie der Physik an groß angelegten QA-Datensätzen, um reasoning-fähige Modelle effektiv zu trainieren. In dieser Arbeit zeigen wir, dass Physiksimulatoren eine leistungsstarke Alternative zur Aufsicht beim Training von LLMs für physikalisches Reasoning darstellen können. Wir generieren zufällige Szenen in Physics Engines, erstellen synthetische Frage-Antwort-Paare aus simulierten Interaktionen und trainieren LLMs mittels Reinforcement Learning auf diesen synthetischen Daten. Unsere Modelle zeigen einen Zero-Shot-Sim-to-Real-Transfer auf reale Physik-Benchmarks: So verbessert ein Training ausschließlich auf synthetischen Simulationsdaten die Leistung bei IPhO-Problemen (Internationale Physikolympiade) um 5-10 Prozentpunkte über verschiedene Modellgrößen hinweg. Diese Ergebnisse demonstrieren, dass Physiksimulatoren als skalierbare Datengeneratoren fungieren können, die es LLMs ermöglichen, tiefgehende physikalische Reasoning-Fähigkeiten jenseits der Grenzen internetgroßer QA-Daten zu erwerben. Code verfügbar unter: https://sim2reason.github.io/.

English

We have witnessed remarkable advances in LLM reasoning capabilities with the advent of DeepSeek-R1. However, much of this progress has been fueled by the abundance of internet question-answer (QA) pairs, a major bottleneck going forward, since such data is limited in scale and concentrated mainly in domains like mathematics. In contrast, other sciences such as physics lack large-scale QA datasets to effectively train reasoning-capable models. In this work, we show that physics simulators can serve as a powerful alternative source of supervision for training LLMs for physical reasoning. We generate random scenes in physics engines, create synthetic question-answer pairs from simulated interactions, and train LLMs using reinforcement learning on this synthetic data. Our models exhibit zero-shot sim-to-real transfer to real-world physics benchmarks: for example, training solely on synthetic simulated data improves performance on IPhO (International Physics Olympiad) problems by 5-10 percentage points across model sizes. These results demonstrate that physics simulators can act as scalable data generators, enabling LLMs to acquire deep physical reasoning skills beyond the limitations of internet-scale QA data. Code available at: https://sim2reason.github.io/.

Lösen von Physik-Olympiaden durch Reinforcement Learning auf Physiksimulatoren

Solving Physics Olympiad via Reinforcement Learning on Physics Simulators

Zusammenfassung

Support