Oplossen van Natuurkunde Olympiades via Reinforcement Learning op Natuurkunde Simulatoren

Samenvatting

Wij hebben opmerkelijke vooruitgang gezien in de redeneervermogens van grote taalmodelen (LLM's) met de komst van DeepSeek-R1. Dit proces is echter grotendeels aangedreven door de overvloed aan vraag-antwoordparen (QA-paren) op internet, wat een belangrijk knelpunt vormt voor de toekomst, omdat dergelijke gegevens schaars zijn en vooral geconcentreerd in domeinen zoals wiskunde. Andere wetenschappen, zoals natuurkunde, beschikken daarentegen niet over grootschalige QA-datasets om modellen effectief te trainen in redeneren. In dit werk tonen wij aan dat natuurkundesimulators een krachtig alternatief kunnen zijn als bron van supervisie voor het trainen van LLM's voor fysisch redeneren. Wij genereren willekeurige scènes in physics engines, creëren synthetische vraag-antwoordparen op basis van gesimuleerde interacties, en trainen LLM's met reinforcement learning op deze synthetische data. Onze modellen vertonen zero-shot transfer van simulatie naar de werkelijkheid op fysicabenchmarks uit de echte wereld: training uitsluitend op synthetische gesimuleerde gegevens verbetert bijvoorbeeld de prestaties op IPhO-problemen (Internationale Natuurkunde Olympiade) met 5-10 procentpunten voor verschillende modelgroottes. Deze resultaten tonen aan dat natuurkundesimulators kunnen fungeren als schaalbare datageneratoren, waardoor LLM's diepgaande fysische redeneervaardigheden kunnen verwerven die de beperkingen van internet-schaal QA-data overstijgen. Code beschikbaar op: https://sim2reason.github.io/.

English

We have witnessed remarkable advances in LLM reasoning capabilities with the advent of DeepSeek-R1. However, much of this progress has been fueled by the abundance of internet question-answer (QA) pairs, a major bottleneck going forward, since such data is limited in scale and concentrated mainly in domains like mathematics. In contrast, other sciences such as physics lack large-scale QA datasets to effectively train reasoning-capable models. In this work, we show that physics simulators can serve as a powerful alternative source of supervision for training LLMs for physical reasoning. We generate random scenes in physics engines, create synthetic question-answer pairs from simulated interactions, and train LLMs using reinforcement learning on this synthetic data. Our models exhibit zero-shot sim-to-real transfer to real-world physics benchmarks: for example, training solely on synthetic simulated data improves performance on IPhO (International Physics Olympiad) problems by 5-10 percentage points across model sizes. These results demonstrate that physics simulators can act as scalable data generators, enabling LLMs to acquire deep physical reasoning skills beyond the limitations of internet-scale QA data. Code available at: https://sim2reason.github.io/.

Oplossen van Natuurkunde Olympiades via Reinforcement Learning op Natuurkunde Simulatoren

Solving Physics Olympiad via Reinforcement Learning on Physics Simulators

Samenvatting

Support