ChatPaper.aiChatPaper

P1 : Maîtriser les Olympiades de Physique grâce à l'apprentissage par renforcement

P1: Mastering Physics Olympiads with Reinforcement Learning

November 17, 2025
papers.authors: Jiacheng Chen, Qianjia Cheng, Fangchen Yu, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Yun Luo, Yufeng Zhao, Futing Wang, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Wenxauan Zeng, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui
cs.AI

papers.abstract

Les récents progrès dans les modèles de langage à grande échelle (LLMs) ont déplacé la frontière de la résolution de casse-têtes vers un raisonnement de niveau scientifique—le type nécessaire pour aborder des problèmes dont les réponses doivent résister à l'épreuve de la nature, et non simplement correspondre à un barème. La physique constitue le test le plus rigoureux de cette transition, car elle lie les symboles à la réalité de manière fondamentale, servant de pierre angulaire à la plupart des technologies modernes. Dans ce travail, nous parvenons à faire progresser la recherche en physique en développant des modèles de langage à grande échelle dotés de capacités exceptionnelles de raisonnement physique, excellant particulièrement dans la résolution de problèmes de physique de niveau Olympiade. Nous présentons P1, une famille de modèles de raisonnement physique open-source entièrement entraînés par apprentissage par renforcement (RL). Parmi eux, P1-235B-A22B est le premier modèle open-source à obtenir une performance de médaille d'or lors de la dernière Olympiade Internationale de Physique (IPhO 2025), et remporte 12 médailles d'or sur 13 compétitions internationales/régionales de physique en 2024/2025. P1-30B-A3B surpasse également presque tous les autres modèles open-source à l'IPhO 2025, obtenant une médaille d'argent. En étant équipé d'un cadre agentique PhysicsMinions, P1-235B-A22B+PhysicsMinions atteint la première place globale à l'IPhO 2025 et obtient le score moyen le plus élevé sur les 13 compétitions de physique. Outre la physique, les modèles P1 montrent également d'excellentes performances sur d'autres tâches de raisonnement comme les mathématiques et la programmation, démontrant ainsi la grande généralisabilité de la série P1.
English
Recent progress in large language models (LLMs) has moved the frontier from puzzle-solving to science-grade reasoning-the kind needed to tackle problems whose answers must stand against nature, not merely fit a rubric. Physics is the sharpest test of this shift, which binds symbols to reality in a fundamental way, serving as the cornerstone of most modern technologies. In this work, we manage to advance physics research by developing large language models with exceptional physics reasoning capabilities, especially excel at solving Olympiad-level physics problems. We introduce P1, a family of open-source physics reasoning models trained entirely through reinforcement learning (RL). Among them, P1-235B-A22B is the first open-source model with Gold-medal performance at the latest International Physics Olympiad (IPhO 2025), and wins 12 gold medals out of 13 international/regional physics competitions in 2024/2025. P1-30B-A3B also surpasses almost all other open-source models on IPhO 2025, getting a silver medal. Further equipped with an agentic framework PhysicsMinions, P1-235B-A22B+PhysicsMinions achieves overall No.1 on IPhO 2025, and obtains the highest average score over the 13 physics competitions. Besides physics, P1 models also present great performance on other reasoning tasks like math and coding, showing the great generalibility of P1 series.
PDF1063November 19, 2025