Risoluzione delle Olimpiadi della Fisica tramite Apprendimento per Rinforzo su Simulatori Fisici

Abstract

Abbiamo assistito a notevoli progressi nelle capacità di ragionamento dei LLM con l'avvento di DeepSeek-R1. Tuttavia, gran parte di questo progresso è stato alimentato dall'abbondanza di coppie domanda-risposta (QA) disponibili su Internet, che rappresentano un collo di bottiglia significativo per il futuro, poiché tali dati sono limitati in scala e concentrati principalmente in domini come la matematica. Al contrario, altre scienze come la fisica mancano di dataset QA su larga scala per addestrare efficacemente modelli capaci di ragionamento. In questo lavoro, dimostriamo che i simulatori fisici possono fungere da potente fonte alternativa di supervisione per l'addestramento di LLM per il ragionamento fisico. Generiamo scene casuali nei motori fisici, creiamo coppie domanda-risposta sintetiche dalle interazioni simulate e addestriamo i LLM utilizzando l'apprendimento per rinforzo su questi dati sintetici. I nostri modelli mostrano un trasferimento zero-shot da simulazione a realtà verso benchmark fisici del mondo reale: ad esempio, l'addestramento esclusivamente su dati sintetici simulati migliora le prestazioni sui problemi delle Olimpiadi Internazionali di Fisica (IPhO) di 5-10 punti percentuali su diverse dimensioni del modello. Questi risultati dimostrano che i simulatori fisici possono fungere da generatori di dati scalabili, consentendo ai LLM di acquisire abilità di ragionamento fisico profondo oltre i limiti dei dati QA su scala internet. Codice disponibile all'indirizzo: https://sim2reason.github.io/.

English

We have witnessed remarkable advances in LLM reasoning capabilities with the advent of DeepSeek-R1. However, much of this progress has been fueled by the abundance of internet question-answer (QA) pairs, a major bottleneck going forward, since such data is limited in scale and concentrated mainly in domains like mathematics. In contrast, other sciences such as physics lack large-scale QA datasets to effectively train reasoning-capable models. In this work, we show that physics simulators can serve as a powerful alternative source of supervision for training LLMs for physical reasoning. We generate random scenes in physics engines, create synthetic question-answer pairs from simulated interactions, and train LLMs using reinforcement learning on this synthetic data. Our models exhibit zero-shot sim-to-real transfer to real-world physics benchmarks: for example, training solely on synthetic simulated data improves performance on IPhO (International Physics Olympiad) problems by 5-10 percentage points across model sizes. These results demonstrate that physics simulators can act as scalable data generators, enabling LLMs to acquire deep physical reasoning skills beyond the limitations of internet-scale QA data. Code available at: https://sim2reason.github.io/.

Risoluzione delle Olimpiadi della Fisica tramite Apprendimento per Rinforzo su Simulatori Fisici

Solving Physics Olympiad via Reinforcement Learning on Physics Simulators

Abstract

Support