Resolução de Olimpíadas de Física via Aprendizado por Reforço em Simuladores Físicos

Resumo

Testemunhámos avanços notáveis nas capacidades de raciocínio de LLMs com o advento do DeepSeek-R1. No entanto, grande parte deste progresso tem sido alimentado pela abundância de pares pergunta-resposta (QA) da internet, um grande estrangulamento futuro, uma vez que esses dados são limitados em escala e concentrados principalmente em domínios como matemática. Em contraste, outras ciências como a física carecem de conjuntos de dados QA em larga escala para treinar eficazmente modelos com capacidade de raciocínio. Neste trabalho, mostramos que os simuladores de física podem servir como uma alternativa poderosa de supervisão para treinar LLMs para raciocínio físico. Geramos cenas aleatórias em motores de física, criamos pares pergunta-resposta sintéticos a partir de interações simuladas e treinamos LLMs usando aprendizagem por reforço com esses dados sintéticos. Os nossos modelos exibem transferência sim-to-real zero-shot para benchmarks de física do mundo real: por exemplo, o treino exclusivo com dados simulados sintéticos melhora o desempenho em problemas da OIPF (Olimpíada Internacional de Física) em 5-10 pontos percentuais em vários tamanhos de modelo. Estes resultados demonstram que os simuladores de física podem atuar como geradores de dados escaláveis, permitindo que os LLMs adquiram competências profundas de raciocínio físico para além das limitações dos dados QA de escala internet. Código disponível em: https://sim2reason.github.io/.

English

We have witnessed remarkable advances in LLM reasoning capabilities with the advent of DeepSeek-R1. However, much of this progress has been fueled by the abundance of internet question-answer (QA) pairs, a major bottleneck going forward, since such data is limited in scale and concentrated mainly in domains like mathematics. In contrast, other sciences such as physics lack large-scale QA datasets to effectively train reasoning-capable models. In this work, we show that physics simulators can serve as a powerful alternative source of supervision for training LLMs for physical reasoning. We generate random scenes in physics engines, create synthetic question-answer pairs from simulated interactions, and train LLMs using reinforcement learning on this synthetic data. Our models exhibit zero-shot sim-to-real transfer to real-world physics benchmarks: for example, training solely on synthetic simulated data improves performance on IPhO (International Physics Olympiad) problems by 5-10 percentage points across model sizes. These results demonstrate that physics simulators can act as scalable data generators, enabling LLMs to acquire deep physical reasoning skills beyond the limitations of internet-scale QA data. Code available at: https://sim2reason.github.io/.

Resolução de Olimpíadas de Física via Aprendizado por Reforço em Simuladores Físicos

Solving Physics Olympiad via Reinforcement Learning on Physics Simulators

Resumo

Support