P1-VL: 物理オリンピックにおける視覚的知覚と科学的推論の統合
P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads
February 10, 2026
著者: Yun Luo, Futing Wang, Qianjia Cheng, Fangchen Yu, Haodi Lei, Jianhao Yan, Chenxi Li, Jiacheng Chen, Yufeng Zhao, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Wenxuan Zeng, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui
cs.AI
要旨
記号操作から科学レベルの推論への移行は、大規模言語モデル(LLM)にとって重要なフロンティアであり、物理学は抽象論理を物理的現実に結びつける決定的な試験場となっている。物理学では、モデルが宇宙を支配する法則との物理的一貫性を維持することが求められ、この課題には抽象論理を現実に接地させるためのマルチモーダル知覚が本質的に必要となる。オリンピアドレベルでは、図表は単なる補助的説明ではなく構成要素として機能し、境界条件や空間対称性といったテキストには明示されない本質的な制約を含むことが多い。この視覚的・論理的ギャップを埋めるため、我々は高度な科学的推論に特化したオープンソースの視覚言語モデルファミリー「P1-VL」を提案する。本手法は、段階的難易度拡張による学習後安定化を図るカリキュラム強化学習と、推論時の反復的自己検証を可能とするエージェント拡張を調和させている。2024年から2025年に実施された13の試験から構成される厳密なベンチマークHiPhOによる評価では、フラッグシップモデルP1-VL-235B-A22Bが12の金メダルを獲得し、オープンソースの視覚言語モデル(VLM)として初めての成果を収めるとともに、オープンソースモデルにおける最先端の性能を達成した。エージェント拡張システムは世界総合ランキング2位を獲得し、Gemini-3-Proに次ぐ成績を収めた。物理学に留まらず、P1-VLは顕著な科学的推論能力と一般化性能を示し、STEMベンチマークにおいてベースモデルを大きく上回るリードを確立している。P1-VLをオープンソース化することで、視覚知覚と抽象物理法則の整合性を高め、機械による科学的発見を促進する一般用途の物理知能への基礎的足掛かりを提供する。
English
The transition from symbolic manipulation to science-grade reasoning represents a pivotal frontier for Large Language Models (LLMs), with physics serving as the critical test anchor for binding abstract logic to physical reality. Physics demands that a model maintain physical consistency with the laws governing the universe, a task that fundamentally requires multimodal perception to ground abstract logic in reality. At the Olympiad level, diagrams are often constitutive rather than illustrative, containing essential constraints, such as boundary conditions and spatial symmetries, that are absent from the text. To bridge this visual-logical gap, we introduce P1-VL, a family of open-source vision-language models engineered for advanced scientific reasoning. Our method harmonizes Curriculum Reinforcement Learning, which employs progressive difficulty expansion to stabilize post-training, with Agentic Augmentation, enabling iterative self-verification at inference. Evaluated on HiPhO, a rigorous benchmark of 13 exams from 2024-2025, our flagship P1-VL-235B-A22B becomes the first open-source Vision-Language Model (VLM) to secure 12 gold medals and achieves the state-of-the-art performance in the open-source models. Our agent-augmented system achieves the No.2 overall rank globally, trailing only Gemini-3-Pro. Beyond physics, P1-VL demonstrates remarkable scientific reasoning capacity and generalizability, establishing significant leads over base models in STEM benchmarks. By open-sourcing P1-VL, we provide a foundational step toward general-purpose physical intelligence to better align visual perceptions with abstract physical laws for machine scientific discovery.