ChatPaper.aiChatPaper

P1-VL: 물리 올림피아드에서 시각적 인지와 과학적 추론의 연결

P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads

February 10, 2026
저자: Yun Luo, Futing Wang, Qianjia Cheng, Fangchen Yu, Haodi Lei, Jianhao Yan, Chenxi Li, Jiacheng Chen, Yufeng Zhao, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Wenxuan Zeng, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui
cs.AI

초록

기호적 조작에서 과학 수준의 추론으로의 전환은 대규모 언어 모델(LLM)의 중추적 전선을 나타내며, 물리학은 추상적 논리를 물리적 현실에 결속시키는 중요한 시험 장치 역할을 합니다. 물리학은 모델이 우주를 지배하는 법칙과 물리적 일관성을 유지할 것을 요구하는데, 이는 근본적으로 추상적 논리를 현실에 기초하기 위해 다중모드 인식을 필요로 하는 과제입니다. 올림피아드 수준에서는 도해가 단순히 설명을 위한 것이 아니라 구성적 요소인 경우가 많으며, 경계 조건 및 공간 대칭성과 같이 텍스트에는 누락된 필수 제약 조건을 포함합니다. 이러한 시각-논리 간극을 해소하기 위해 우리는 고급 과학적 추론을 위해 설계된 오픈소스 비전-언어 모델 패밀리인 P1-VL을 소개합니다. 우리의 방법은 점진적 난이도 확장을 통해 사후 훈련을 안정화하는 커리큘럼 강화 학습과 추론 시 반복적 자가 검증을 가능하게 하는 에이전트 증강을 조화롭게 통합합니다. 2024-2025년 13개 대회로 구성된 엄격한 벤치마크인 HiPhO에서 평가된 우리의 플래그십 모델 P1-VL-235B-A22B는 12개의 금메달을 획득한 최초의 오픈소스 VLM이 되며 오픈소스 모델 중 최첨단 성능을 달성했습니다. 우리의 에이전트 증강 시스템은 Gemini-3-Pro에 이어 전 세계 종합 순위 2위를 기록했습니다. 물리학을 넘어, P1-VL은 놀라운 과학적 추론 능력과 일반화 능력을 입증하며 STEM 벤치마크에서 기본 모델 대비 상당한 선두 지위를 확립했습니다. P1-VL을 오픈소스로 공개함으로써 우리는 기계의 과학적 발견을 위해 시각적 인식을 추상적 물리 법칙과 더 잘 조정하는 범용 물리 지능을 향한 기초적인 단계를 제공합니다.
English
The transition from symbolic manipulation to science-grade reasoning represents a pivotal frontier for Large Language Models (LLMs), with physics serving as the critical test anchor for binding abstract logic to physical reality. Physics demands that a model maintain physical consistency with the laws governing the universe, a task that fundamentally requires multimodal perception to ground abstract logic in reality. At the Olympiad level, diagrams are often constitutive rather than illustrative, containing essential constraints, such as boundary conditions and spatial symmetries, that are absent from the text. To bridge this visual-logical gap, we introduce P1-VL, a family of open-source vision-language models engineered for advanced scientific reasoning. Our method harmonizes Curriculum Reinforcement Learning, which employs progressive difficulty expansion to stabilize post-training, with Agentic Augmentation, enabling iterative self-verification at inference. Evaluated on HiPhO, a rigorous benchmark of 13 exams from 2024-2025, our flagship P1-VL-235B-A22B becomes the first open-source Vision-Language Model (VLM) to secure 12 gold medals and achieves the state-of-the-art performance in the open-source models. Our agent-augmented system achieves the No.2 overall rank globally, trailing only Gemini-3-Pro. Beyond physics, P1-VL demonstrates remarkable scientific reasoning capacity and generalizability, establishing significant leads over base models in STEM benchmarks. By open-sourcing P1-VL, we provide a foundational step toward general-purpose physical intelligence to better align visual perceptions with abstract physical laws for machine scientific discovery.
PDF511February 12, 2026