P1-VL: Brückenschlag zwischen visueller Wahrnehmung und wissenschaftlichem Denken in Physikolympiaden
P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads
February 10, 2026
papers.authors: Yun Luo, Futing Wang, Qianjia Cheng, Fangchen Yu, Haodi Lei, Jianhao Yan, Chenxi Li, Jiacheng Chen, Yufeng Zhao, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Wenxuan Zeng, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui
cs.AI
papers.abstract
Der Übergang von symbolischer Manipulation zu wissenschaftlich hochwertigem Denken stellt eine entscheidende Grenze für große Sprachmodelle (LLMs) dar, wobei die Physik als zentraler Prüfstein dient, um abstrakte Logik an die physikalische Realität zu binden. Die Physik erfordert, dass ein Modell physikalische Konsistenz mit den Gesetzen des Universums wahrt – eine Aufgabe, die grundlegend multimodale Wahrnehmung erfordert, um abstrakte Logik in der Realität zu verankern. Auf Olympiaden-Niveau sind Diagramme oft konstitutiv und nicht nur illustrativ; sie enthalten wesentliche Randbedingungen, wie etwa Grenzbedingungen und räumliche Symmetrien, die im Text fehlen. Um diese visuell-logische Lücke zu überbrücken, stellen wir P1-VL vor, eine Familie quelloffener Vision-Sprache-Modelle, die für fortgeschrittenes wissenschaftliches Denken entwickelt wurden. Unsere Methode verbindet Curriculum Reinforcement Learning, das fortschreitende Schwierigkeitssteigerung zur Stabilisierung des Post-Trainings nutzt, mit agentenbasierter Erweiterung, die iterative Selbstverifikation während der Inferenz ermöglicht. Ausgewertet auf HiPhO, einem rigorosen Benchmark mit 13 Prüfungen von 2024–2025, wird unser Flaggschiff P1-VL-235B-A22B das erste quelloffene Vision-Sprache-Modell (VLM), das 12 Goldmedaillen erringt, und erreicht state-of-the-art Leistung unter den quelloffenen Modellen. Unser agentengestütztes System erreicht global den zweiten Gesamtrang, knapp hinter Gemini-3-Pro. Über die Physik hinaus zeigt P1-VL bemerkenswerte wissenschaftliche Denkfähigkeit und Generalisierbarkeit und erzielt signifikante Vorsprünge gegenüber Basismodellen in MINT-Benchmarks. Durch die Veröffentlichung von P1-VL als Open Source leisten wir einen grundlegenden Schritt hin zu einer allgemeinen physikalischen Intelligenz, um visuelle Wahrnehmungen besser mit abstrakten physikalischen Gesetzen für maschinelle wissenschaftliche Entdeckungen in Einklang zu bringen.
English
The transition from symbolic manipulation to science-grade reasoning represents a pivotal frontier for Large Language Models (LLMs), with physics serving as the critical test anchor for binding abstract logic to physical reality. Physics demands that a model maintain physical consistency with the laws governing the universe, a task that fundamentally requires multimodal perception to ground abstract logic in reality. At the Olympiad level, diagrams are often constitutive rather than illustrative, containing essential constraints, such as boundary conditions and spatial symmetries, that are absent from the text. To bridge this visual-logical gap, we introduce P1-VL, a family of open-source vision-language models engineered for advanced scientific reasoning. Our method harmonizes Curriculum Reinforcement Learning, which employs progressive difficulty expansion to stabilize post-training, with Agentic Augmentation, enabling iterative self-verification at inference. Evaluated on HiPhO, a rigorous benchmark of 13 exams from 2024-2025, our flagship P1-VL-235B-A22B becomes the first open-source Vision-Language Model (VLM) to secure 12 gold medals and achieves the state-of-the-art performance in the open-source models. Our agent-augmented system achieves the No.2 overall rank globally, trailing only Gemini-3-Pro. Beyond physics, P1-VL demonstrates remarkable scientific reasoning capacity and generalizability, establishing significant leads over base models in STEM benchmarks. By open-sourcing P1-VL, we provide a foundational step toward general-purpose physical intelligence to better align visual perceptions with abstract physical laws for machine scientific discovery.