ChatPaper.aiChatPaper

P1: Fysica Olympiades beheersen met Versterkend Leren

P1: Mastering Physics Olympiads with Reinforcement Learning

November 17, 2025
Auteurs: Jiacheng Chen, Qianjia Cheng, Fangchen Yu, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Yun Luo, Yufeng Zhao, Futing Wang, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Wenxauan Zeng, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui
cs.AI

Samenvatting

Recente vooruitgang in grote taalmodelen (LLM's) heeft de grens verlegd van puzzeloplossen naar wetenschappelijk redeneren van hoog niveau – het soort redeneren dat nodig is om problemen aan te pakken waarvan de antwoorden tegen de natuur moeten worden afgewogen, en niet slechts aan een rubric moeten voldoen. Natuurkunde vormt de scherpste toets voor deze verschuiving, omdat het symbolen op een fundamentele manier aan de werkelijkheid bindt en fungeert als hoeksteen van de meeste moderne technologieën. In dit werk slagen we erin het natuurkundeonderzoek vooruit te helpen door grote taalmodelen te ontwikkelen met uitzonderlijke redeneervaardigheden in de natuurkunde, die vooral uitblinken in het oplossen van Olympiade-niveau natuurkundeproblemen. We introduceren P1, een familie van open-source natuurkunde-redeneermodellen die volledig zijn getraind via reinforcement learning (RL). Onder hen is P1-235B-A22B het eerste open-source model met een gouden-medailleprestatie op de laatste Internationale Natuurkunde Olympiade (IPhO 2025), en wint het 12 gouden medailles uit 13 internationale/regionale natuurkundewedstrijden in 2024/2025. P1-30B-A3B overtreft ook bijna alle andere open-source modellen op IPhO 2025 en behaalt een zilveren medaille. Verder uitgerust met een agentisch raamwerk, PhysicsMinions, behaalt P1-235B-A22B+PhysicsMinions de algehele eerste plaats op IPhO 2025 en scoort het het hoogste gemiddelde over de 13 natuurkundewedstrijden. Naast natuurkunde tonen de P1-modellen ook uitstekende prestaties op andere redeneertaken zoals wiskunde en programmeren, wat de grote generaliseerbaarheid van de P1-serie aantoont.
English
Recent progress in large language models (LLMs) has moved the frontier from puzzle-solving to science-grade reasoning-the kind needed to tackle problems whose answers must stand against nature, not merely fit a rubric. Physics is the sharpest test of this shift, which binds symbols to reality in a fundamental way, serving as the cornerstone of most modern technologies. In this work, we manage to advance physics research by developing large language models with exceptional physics reasoning capabilities, especially excel at solving Olympiad-level physics problems. We introduce P1, a family of open-source physics reasoning models trained entirely through reinforcement learning (RL). Among them, P1-235B-A22B is the first open-source model with Gold-medal performance at the latest International Physics Olympiad (IPhO 2025), and wins 12 gold medals out of 13 international/regional physics competitions in 2024/2025. P1-30B-A3B also surpasses almost all other open-source models on IPhO 2025, getting a silver medal. Further equipped with an agentic framework PhysicsMinions, P1-235B-A22B+PhysicsMinions achieves overall No.1 on IPhO 2025, and obtains the highest average score over the 13 physics competitions. Besides physics, P1 models also present great performance on other reasoning tasks like math and coding, showing the great generalibility of P1 series.
PDF1063November 19, 2025