每日精选AI研究论文及翻译
近期,大型语言模型(LLMs)的进展已将其前沿从解决谜题推进至科学级推理——这种推理能力旨在应对那些答案必须经得起自然检验,而不仅仅是符合评分标准的问题。物理学是这一转变最为严苛的测试场,它以根本的方式将符号与现实紧密相连,成为多数现代技术的基石。在本研究中,我们通过开发具备卓越物理推理能力的大型语言模型,成功推动了物理学研究,特别是在解决奥林匹克级别的物理问题上表现突出。我们推出了P1系列,这是一组完全通过强化学习(RL)训练的开源物理推理模型。其中,P1-235B-A22B是首个在最新国际物理奥林匹克竞赛(IPhO 2025)中达到金牌表现的开源模型,并在2024/2025年间的13项国际/地区物理竞赛中斩获12枚金牌。P1-30B-A3B同样在IPhO 2025上超越了几乎所有其他开源模型,获得银牌。进一步配备代理框架PhysicsMinions后,P1-235B-A22B+PhysicsMinions在IPhO 2025上综合排名第一,并在13项物理竞赛中取得最高平均分。除物理外,P1系列模型在数学、编程等其他推理任务上也展现出优异性能,彰显了P1系列强大的泛化能力。