P1: Padroneggiare le Olimpiadi della Fisica con l'Apprendimento per Rinforzo
P1: Mastering Physics Olympiads with Reinforcement Learning
November 17, 2025
Autori: Jiacheng Chen, Qianjia Cheng, Fangchen Yu, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Yun Luo, Yufeng Zhao, Futing Wang, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Wenxauan Zeng, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno spostato la frontiera dalla risoluzione di enigmi al ragionamento di livello scientifico, il tipo necessario per affrontare problemi le cui risposte devono resistere alla prova della natura, non semplicemente adattarsi a una griglia di valutazione. La fisica rappresenta il test più rigoroso di questo cambiamento, poiché lega i simboli alla realtà in modo fondamentale, fungendo da pietra angolare della maggior parte delle tecnologie moderne. In questo lavoro, riusciamo a far avanzare la ricerca in fisica sviluppando modelli linguistici di grandi dimensioni con eccezionali capacità di ragionamento fisico, particolarmente abili nella risoluzione di problemi di fisica di livello olimpico. Introduciamo P1, una famiglia di modelli open-source per il ragionamento fisico addestrati interamente attraverso l'apprendimento per rinforzo (RL). Tra questi, P1-235B-A22B è il primo modello open-source con prestazioni da medaglia d'oro alla più recente Olimpiade Internazionale di Fisica (IPhO 2025), vincendo 12 medaglie d'oro su 13 competizioni internazionali/regionali di fisica nel 2024/2025. Anche P1-30B-A3B supera quasi tutti gli altri modelli open-source su IPhO 2025, ottenendo una medaglia d'argento. Ulteriormente potenziato da un framework agentico chiamato PhysicsMinions, P1-235B-A22B+PhysicsMinions raggiunge il primo posto assoluto su IPhO 2025 e ottiene il punteggio medio più alto nelle 13 competizioni di fisica. Oltre alla fisica, i modelli P1 dimostrano anche ottime prestazioni in altre attività di ragionamento come la matematica e la programmazione, mostrando la grande generalizzabilità della serie P1.
English
Recent progress in large language models (LLMs) has moved the frontier from puzzle-solving to science-grade reasoning-the kind needed to tackle problems whose answers must stand against nature, not merely fit a rubric. Physics is the sharpest test of this shift, which binds symbols to reality in a fundamental way, serving as the cornerstone of most modern technologies. In this work, we manage to advance physics research by developing large language models with exceptional physics reasoning capabilities, especially excel at solving Olympiad-level physics problems. We introduce P1, a family of open-source physics reasoning models trained entirely through reinforcement learning (RL). Among them, P1-235B-A22B is the first open-source model with Gold-medal performance at the latest International Physics Olympiad (IPhO 2025), and wins 12 gold medals out of 13 international/regional physics competitions in 2024/2025. P1-30B-A3B also surpasses almost all other open-source models on IPhO 2025, getting a silver medal. Further equipped with an agentic framework PhysicsMinions, P1-235B-A22B+PhysicsMinions achieves overall No.1 on IPhO 2025, and obtains the highest average score over the 13 physics competitions. Besides physics, P1 models also present great performance on other reasoning tasks like math and coding, showing the great generalibility of P1 series.