P1-VL: Overbrugging van Visuele Waarneming en Wetenschappelijk Redeneren bij Natuurkunde Olympiades
P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads
February 10, 2026
Auteurs: Yun Luo, Futing Wang, Qianjia Cheng, Fangchen Yu, Haodi Lei, Jianhao Yan, Chenxi Li, Jiacheng Chen, Yufeng Zhao, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Wenxuan Zeng, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui
cs.AI
Samenvatting
De overgang van symbolische manipulatie naar wetenschappelijk-kwalitatief redeneren vormt een cruciaal front voor Grote Taalmodellen (LLM's), waarbij natuurkunde dient als het essentiële testanker om abstracte logica aan de fysieke realiteit te verbinden. Natuurkunde vereist dat een model fysieke consistentie handhaaft met de wetten die het universum beheersen, een taak die fundamenteel multimodale perceptie vereist om abstracte logica in de realiteit te verankeren. Op Olympiadeniveau zijn diagrammen vaak constitutief in plaats van illustratief; ze bevatten essentiële beperkingen, zoals randvoorwaarden en ruimtelijke symmetrieën, die afwezig zijn in de tekst. Om deze visueel-logische kloof te overbruggen, introduceren wij P1-VL, een familie van open-source vision-language modellen, ontworpen voor geavanceerd wetenschappelijk redeneren. Onze methode harmonieert Curriculum Reinforcement Learning, dat progressieve moeilijkheidsuitbreiding gebruikt om post-training te stabiliseren, met Agentic Augmentation, wat iteratieve zelfverificatie tijdens inferentie mogelijk maakt. Geëvalueerd op HiPhO, een rigoureus benchmarkplatform bestaande uit 13 examens van 2024-2025, wordt ons vlaggenschip P1-VL-235B-A22B het eerste open-source Vision-Language Model (VLM) dat 12 gouden medailles behaalt en bereikt het state-of-the-art prestaties onder de open-source modellen. Ons agent-augmented systeem behaalt de 2e algemene positie wereldwijd, slechts gevolgd door Gemini-3-Pro. Buiten de natuurkunde toont P1-VL een opmerkelijke wetenschappelijke redeneercapaciteit en generaliseerbaarheid, en vestigt het een significante voorsprong op basismodellen in STEM-benchmarks. Door P1-VL open source te maken, zetten we een fundamentele stap richting algemeen-toepasbare fysieke intelligentie om visuele waarnemingen beter af te stemmen op abstracte natuurwetten voor wetenschappelijke ontdekking door machines.
English
The transition from symbolic manipulation to science-grade reasoning represents a pivotal frontier for Large Language Models (LLMs), with physics serving as the critical test anchor for binding abstract logic to physical reality. Physics demands that a model maintain physical consistency with the laws governing the universe, a task that fundamentally requires multimodal perception to ground abstract logic in reality. At the Olympiad level, diagrams are often constitutive rather than illustrative, containing essential constraints, such as boundary conditions and spatial symmetries, that are absent from the text. To bridge this visual-logical gap, we introduce P1-VL, a family of open-source vision-language models engineered for advanced scientific reasoning. Our method harmonizes Curriculum Reinforcement Learning, which employs progressive difficulty expansion to stabilize post-training, with Agentic Augmentation, enabling iterative self-verification at inference. Evaluated on HiPhO, a rigorous benchmark of 13 exams from 2024-2025, our flagship P1-VL-235B-A22B becomes the first open-source Vision-Language Model (VLM) to secure 12 gold medals and achieves the state-of-the-art performance in the open-source models. Our agent-augmented system achieves the No.2 overall rank globally, trailing only Gemini-3-Pro. Beyond physics, P1-VL demonstrates remarkable scientific reasoning capacity and generalizability, establishing significant leads over base models in STEM benchmarks. By open-sourcing P1-VL, we provide a foundational step toward general-purpose physical intelligence to better align visual perceptions with abstract physical laws for machine scientific discovery.