P1: Освоение физических олимпиад с использованием обучения с подкреплением
P1: Mastering Physics Olympiads with Reinforcement Learning
November 17, 2025
Авторы: Jiacheng Chen, Qianjia Cheng, Fangchen Yu, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Yun Luo, Yufeng Zhao, Futing Wang, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Wenxauan Zeng, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) сместили границы исследований от решения головоломок к научному уровню рассуждений — тому, который необходим для решения задач, ответы на которые должны соответствовать законам природы, а не просто удовлетворять критериям оценки. Физика является наиболее строгим испытанием этого перехода, поскольку она связывает символы с реальностью на фундаментальном уровне, выступая краеугольным камнем большинства современных технологий. В данной работе мы продвигаем исследования в области физики, разрабатывая большие языковые модели с исключительными способностями к физическим рассуждениям, особенно эффективные в решении задач уровня олимпиад. Мы представляем P1 — семейство открытых моделей для физических рассуждений, полностью обученных с использованием обучения с подкреплением (RL). Среди них P1-235B-A22B является первой открытой моделью, демонстрирующей уровень, соответствующий золотой медали на последней Международной физической олимпиаде (IPhO 2025), и завоевывающей 12 золотых медалей из 13 международных и региональных физических соревнований в 2024/2025 годах. P1-30B-A3B также превосходит почти все другие открытые модели на IPhO 2025, получая серебряную медаль. Дополненная агентной платформой PhysicsMinions, модель P1-235B-A22B+PhysicsMinions занимает первое место на IPhO 2025 и демонстрирует наивысший средний балл на 13 физических соревнованиях. Помимо физики, модели P1 также показывают выдающиеся результаты в других задачах, требующих рассуждений, таких как математика и программирование, что свидетельствует о высокой обобщающей способности серии P1.
English
Recent progress in large language models (LLMs) has moved the frontier from puzzle-solving to science-grade reasoning-the kind needed to tackle problems whose answers must stand against nature, not merely fit a rubric. Physics is the sharpest test of this shift, which binds symbols to reality in a fundamental way, serving as the cornerstone of most modern technologies. In this work, we manage to advance physics research by developing large language models with exceptional physics reasoning capabilities, especially excel at solving Olympiad-level physics problems. We introduce P1, a family of open-source physics reasoning models trained entirely through reinforcement learning (RL). Among them, P1-235B-A22B is the first open-source model with Gold-medal performance at the latest International Physics Olympiad (IPhO 2025), and wins 12 gold medals out of 13 international/regional physics competitions in 2024/2025. P1-30B-A3B also surpasses almost all other open-source models on IPhO 2025, getting a silver medal. Further equipped with an agentic framework PhysicsMinions, P1-235B-A22B+PhysicsMinions achieves overall No.1 on IPhO 2025, and obtains the highest average score over the 13 physics competitions. Besides physics, P1 models also present great performance on other reasoning tasks like math and coding, showing the great generalibility of P1 series.