P1: Physikolympiaden meistern mit Reinforcement Learning
P1: Mastering Physics Olympiads with Reinforcement Learning
November 17, 2025
papers.authors: Jiacheng Chen, Qianjia Cheng, Fangchen Yu, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Yun Luo, Yufeng Zhao, Futing Wang, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Wenxauan Zeng, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui
cs.AI
papers.abstract
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die Grenze vom Rätsellösen hin zu wissenschaftlich fundiertem Denken verschoben – der Art, die benötigt wird, um Probleme zu lösen, deren Antworten der Natur standhalten müssen und nicht lediglich einem Bewertungsschema entsprechen. Die Physik stellt den schärfsten Test für diesen Wandel dar, da sie Symbole auf fundamentale Weise mit der Realität verbindet und als Eckpfeiler der meisten modernen Technologien dient. In dieser Arbeit gelingt es uns, die physikalische Forschung voranzutreiben, indem wir große Sprachmodelle mit außergewöhnlichen Fähigkeiten im physikalischen Denken entwickeln, die insbesondere bei der Lösung von Olympiade-Niveau-Physikproblemen hervorstechen. Wir stellen P1 vor, eine Familie von Open-Source-Modellen für physikalisches Denken, die vollständig durch Reinforcement Learning (RL) trainiert wurden. Unter ihnen ist P1-235B-A22B das erste Open-Source-Modell mit Goldmedaillen-Leistung bei der jüngsten Internationalen Physikolympiade (IPhO 2025) und gewinnt 12 Goldmedaillen bei 13 internationalen/regionalen Physikwettbewerben in den Jahren 2024/2025. P1-30B-A3B übertrifft ebenfalls fast alle anderen Open-Source-Modelle bei der IPhO 2025 und erhält eine Silbermedaille. Weiterhin ausgestattet mit einem agentenbasierten Framework, PhysicsMinions, erreicht P1-235B-A22B+PhysicsMinions den Gesamtsieg bei der IPhO 2025 und erzielt den höchsten Durchschnittswert über die 13 Physikwettbewerbe. Neben der Physik zeigen die P1-Modelle auch hervorragende Leistungen bei anderen Denkaufgaben wie Mathematik und Programmierung, was die große Allgemeingültigkeit der P1-Serie unterstreicht.
English
Recent progress in large language models (LLMs) has moved the frontier from puzzle-solving to science-grade reasoning-the kind needed to tackle problems whose answers must stand against nature, not merely fit a rubric. Physics is the sharpest test of this shift, which binds symbols to reality in a fundamental way, serving as the cornerstone of most modern technologies. In this work, we manage to advance physics research by developing large language models with exceptional physics reasoning capabilities, especially excel at solving Olympiad-level physics problems. We introduce P1, a family of open-source physics reasoning models trained entirely through reinforcement learning (RL). Among them, P1-235B-A22B is the first open-source model with Gold-medal performance at the latest International Physics Olympiad (IPhO 2025), and wins 12 gold medals out of 13 international/regional physics competitions in 2024/2025. P1-30B-A3B also surpasses almost all other open-source models on IPhO 2025, getting a silver medal. Further equipped with an agentic framework PhysicsMinions, P1-235B-A22B+PhysicsMinions achieves overall No.1 on IPhO 2025, and obtains the highest average score over the 13 physics competitions. Besides physics, P1 models also present great performance on other reasoning tasks like math and coding, showing the great generalibility of P1 series.