Papers Diarios

P1: Dominando las Olimpiadas de Física con Aprendizaje por Refuerzo
P1: Mastering Physics Olympiads with Reinforcement Learning

Nov 17

ByJiacheng Chen, Qianjia Cheng, Fangchen Yu, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Yun Luo, Yufeng Zhao, Futing Wang, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Wenxauan Zeng, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui

106

Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han trasladado la frontera desde la resolución de acertijos hacia un razonamiento de nivel científico, el tipo necesario para abordar problemas cuyas respuestas deben resistir el escrutinio de la naturaleza, no simplemente ajustarse a una rúbrica. La física es la prueba más rigurosa de este cambio, ya que vincula los símbolos con la realidad de manera fundamental, sirviendo como piedra angular de la mayoría de las tecnologías modernas. En este trabajo, logramos avanzar en la investigación física mediante el desarrollo de modelos de lenguaje de gran escala con capacidades excepcionales de razonamiento físico, destacándose especialmente en la resolución de problemas de física a nivel olímpico. Presentamos P1, una familia de modelos de razonamiento físico de código abierto entrenados completamente mediante aprendizaje por refuerzo (RL, por sus siglas en inglés). Entre ellos, P1-235B-A22B es el primer modelo de código abierto con un desempeño de medalla de oro en la última Olimpiada Internacional de Física (IPhO 2025), y obtiene 12 medallas de oro de 13 competiciones internacionales/regionales de física en 2024/2025. P1-30B-A3B también supera a casi todos los demás modelos de código abierto en IPhO 2025, obteniendo una medalla de plata. Equipado adicionalmente con un marco agencial PhysicsMinions, P1-235B-A22B+PhysicsMinions logra el primer puesto general en IPhO 2025 y obtiene la puntuación promedio más alta en las 13 competiciones de física. Además de la física, los modelos P1 también presentan un gran rendimiento en otras tareas de razonamiento como matemáticas y programación, demostrando la gran generalización de la serie P1.

P1: Dominando las Olimpiadas de Física con Aprendizaje por Refuerzo

P1: Mastering Physics Olympiads with Reinforcement Learning

Nov 17

106

P1: Dominando las Olimpiadas de Física con Aprendizaje por RefuerzoP1: Mastering Physics Olympiads with Reinforcement Learning

Papers Diarios

P1: Dominando las Olimpiadas de Física con Aprendizaje por RefuerzoP1: Mastering Physics Olympiads with Reinforcement Learning

P1: Dominando las Olimpiadas de Física con Aprendizaje por Refuerzo
P1: Mastering Physics Olympiads with Reinforcement Learning

P1: Dominando las Olimpiadas de Física con Aprendizaje por Refuerzo
P1: Mastering Physics Olympiads with Reinforcement Learning