ChatPaper.aiChatPaper

P1: Dominando las Olimpiadas de Física con Aprendizaje por Refuerzo

P1: Mastering Physics Olympiads with Reinforcement Learning

November 17, 2025
Autores: Jiacheng Chen, Qianjia Cheng, Fangchen Yu, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Yun Luo, Yufeng Zhao, Futing Wang, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Wenxauan Zeng, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui
cs.AI

Resumen

Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han trasladado la frontera desde la resolución de acertijos hacia un razonamiento de nivel científico, el tipo necesario para abordar problemas cuyas respuestas deben resistir el escrutinio de la naturaleza, no simplemente ajustarse a una rúbrica. La física es la prueba más rigurosa de este cambio, ya que vincula los símbolos con la realidad de manera fundamental, sirviendo como piedra angular de la mayoría de las tecnologías modernas. En este trabajo, logramos avanzar en la investigación física mediante el desarrollo de modelos de lenguaje de gran escala con capacidades excepcionales de razonamiento físico, destacándose especialmente en la resolución de problemas de física a nivel olímpico. Presentamos P1, una familia de modelos de razonamiento físico de código abierto entrenados completamente mediante aprendizaje por refuerzo (RL, por sus siglas en inglés). Entre ellos, P1-235B-A22B es el primer modelo de código abierto con un desempeño de medalla de oro en la última Olimpiada Internacional de Física (IPhO 2025), y obtiene 12 medallas de oro de 13 competiciones internacionales/regionales de física en 2024/2025. P1-30B-A3B también supera a casi todos los demás modelos de código abierto en IPhO 2025, obteniendo una medalla de plata. Equipado adicionalmente con un marco agencial PhysicsMinions, P1-235B-A22B+PhysicsMinions logra el primer puesto general en IPhO 2025 y obtiene la puntuación promedio más alta en las 13 competiciones de física. Además de la física, los modelos P1 también presentan un gran rendimiento en otras tareas de razonamiento como matemáticas y programación, demostrando la gran generalización de la serie P1.
English
Recent progress in large language models (LLMs) has moved the frontier from puzzle-solving to science-grade reasoning-the kind needed to tackle problems whose answers must stand against nature, not merely fit a rubric. Physics is the sharpest test of this shift, which binds symbols to reality in a fundamental way, serving as the cornerstone of most modern technologies. In this work, we manage to advance physics research by developing large language models with exceptional physics reasoning capabilities, especially excel at solving Olympiad-level physics problems. We introduce P1, a family of open-source physics reasoning models trained entirely through reinforcement learning (RL). Among them, P1-235B-A22B is the first open-source model with Gold-medal performance at the latest International Physics Olympiad (IPhO 2025), and wins 12 gold medals out of 13 international/regional physics competitions in 2024/2025. P1-30B-A3B also surpasses almost all other open-source models on IPhO 2025, getting a silver medal. Further equipped with an agentic framework PhysicsMinions, P1-235B-A22B+PhysicsMinions achieves overall No.1 on IPhO 2025, and obtains the highest average score over the 13 physics competitions. Besides physics, P1 models also present great performance on other reasoning tasks like math and coding, showing the great generalibility of P1 series.
PDF1063November 19, 2025