Решение задач физических олимпиад с помощью обучения с подкреплением на физических симуляторах

Аннотация

Мы наблюдаем значительный прогресс в способностях языковых моделей к логическим рассуждениям с появлением DeepSeek-R1. Однако большая часть этого прогресса была обеспечена за счет обилия пар «вопрос-ответ» из интернета, что становится основным ограничением для дальнейшего развития, поскольку такие данные ограничены в объеме и сосредоточены в основном в таких областях, как математика. В то же время, другие науки, например, физика, не располагают крупномасштабными наборами данных «вопрос-ответ» для эффективного обучения моделей, способных к рассуждениям. В данной работе мы показываем, что физические симуляторы могут служить мощной альтернативой источником контроля для обучения языковых моделей физическим рассуждениям. Мы генерируем случайные сцены в физических движках, создаем синтетические пары «вопрос-ответ» на основе смоделированных взаимодействий и обучаем языковые модели с помощью обучения с подкреплением на этих синтетических данных. Наши модели демонстрируют zero-shot перенос из симуляции в реальность на бенчмарках по физике реального мира: например, обучение исключительно на синтетических данных из симуляций улучшает производительность на задачах Международной олимпиады по физике (IPhO) на 5–10 процентных пунктов для моделей разного размера. Эти результаты демонстрируют, что физические симуляторы могут выступать в роли масштабируемых генераторов данных, позволяя языковым моделям приобретать глубокие навыки физических рассуждений, выходящие за рамки ограничений интернет-данных формата «вопрос-ответ». Код доступен по адресу: https://sim2reason.github.io/.

English

We have witnessed remarkable advances in LLM reasoning capabilities with the advent of DeepSeek-R1. However, much of this progress has been fueled by the abundance of internet question-answer (QA) pairs, a major bottleneck going forward, since such data is limited in scale and concentrated mainly in domains like mathematics. In contrast, other sciences such as physics lack large-scale QA datasets to effectively train reasoning-capable models. In this work, we show that physics simulators can serve as a powerful alternative source of supervision for training LLMs for physical reasoning. We generate random scenes in physics engines, create synthetic question-answer pairs from simulated interactions, and train LLMs using reinforcement learning on this synthetic data. Our models exhibit zero-shot sim-to-real transfer to real-world physics benchmarks: for example, training solely on synthetic simulated data improves performance on IPhO (International Physics Olympiad) problems by 5-10 percentage points across model sizes. These results demonstrate that physics simulators can act as scalable data generators, enabling LLMs to acquire deep physical reasoning skills beyond the limitations of internet-scale QA data. Code available at: https://sim2reason.github.io/.

Решение задач физических олимпиад с помощью обучения с подкреплением на физических симуляторах

Solving Physics Olympiad via Reinforcement Learning on Physics Simulators

Аннотация

Support