翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)の最近の進展は、パズル解決から科学的推論のフロンティアへと移行し、その答えが単なる採点基準に適合するだけでなく、自然の法則に耐えうるような問題に取り組む能力を求められるようになった。物理学はこのシフトにおいて最も厳密なテストケースであり、記号と現実を根本的に結びつけることで、現代技術の基盤としての役割を果たしている。本研究では、特に物理オリンピックレベルの問題解決に優れた物理推論能力を持つ大規模言語モデルを開発し、物理学研究の進展に貢献する。我々は、強化学習(RL)を通じて完全に訓練されたオープンソースの物理推論モデルファミリーであるP1を紹介する。その中でも、P1-235B-A22Bは、最新の国際物理オリンピック(IPhO 2025)において金メダルレベルの性能を発揮する初のオープンソースモデルであり、2024/2025年の13の国際/地域物理コンテストのうち12個の金メダルを獲得した。また、P1-30B-A3BもIPhO 2025において他のほとんどのオープンソースモデルを上回り、銀メダルを獲得した。さらに、エージェントフレームワークであるPhysicsMinionsを搭載したP1-235B-A22B+PhysicsMinionsは、IPhO 2025で総合1位を達成し、13の物理コンテストにおける最高平均スコアを記録した。物理学以外の分野においても、P1モデルは数学やコーディングなどの推論タスクで優れた性能を示し、P1シリーズの高い汎用性を証明している。