ChatPaper.aiChatPaper

P1-VL: Связь визуального восприятия и научного мышления на физических олимпиадах

P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads

February 10, 2026
Авторы: Yun Luo, Futing Wang, Qianjia Cheng, Fangchen Yu, Haodi Lei, Jianhao Yan, Chenxi Li, Jiacheng Chen, Yufeng Zhao, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Wenxuan Zeng, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui
cs.AI

Аннотация

Переход от символьных манипуляций к научно-обоснованным рассуждениям представляет собой ключевой рубеж для больших языковых моделей (LLM), где физика выступает критически важным испытательным полигоном для привязки абстрактной логики к физической реальности. Физика требует от модели сохранения физической согласованности с законами, управляющими Вселенной, — задача, которая принципиально требует мультимодального восприятия для обоснования абстрактной логики в реальности. На уровне олимпиад диаграммы часто являются конститутивными, а не иллюстративными, содержащими существенные ограничения, такие как граничные условия и пространственные симметрии, которые отсутствуют в тексте. Чтобы преодолеть этот визуально-логический разрыв, мы представляем P1-VL — семейство моделей открытого кодекса «визуальный язык», созданных для расширенного научного мышления. Наш метод гармонично сочетает обучение с подкреплением по учебному плану, которое использует прогрессивное расширение сложности для стабилизации пост-обучения, с агентским усилением, позволяющим итеративную самопроверку на этапе вывода. По оценкам на HiPhO, строгом бенчмарке, включающем 13 экзаменов за 2024-2025 годы, наша флагманская модель P1-VL-235B-A22B стала первой моделью «визуальный язык» открытого кодекса, завоевавшей 12 золотых медалей, и показала наилучшую производительность среди открытых моделей. Наша система с агентским усилением достигла 2-го общего ранга в мировом рейтинге, уступив только Gemini-3-Pro. Помимо физики, P1-VL демонстрирует выдающуюся способность к научным рассуждениям и обобщаемость, устанавливая значительное преимущество над базовыми моделями в STEM-бенчмарках. Открывая исходный код P1-VL, мы делаем фундаментальный шаг к созданию универсального физического интеллекта для лучшего согласования визуального восприятия с абстрактными физическими законами в целях машинного научного открытия.
English
The transition from symbolic manipulation to science-grade reasoning represents a pivotal frontier for Large Language Models (LLMs), with physics serving as the critical test anchor for binding abstract logic to physical reality. Physics demands that a model maintain physical consistency with the laws governing the universe, a task that fundamentally requires multimodal perception to ground abstract logic in reality. At the Olympiad level, diagrams are often constitutive rather than illustrative, containing essential constraints, such as boundary conditions and spatial symmetries, that are absent from the text. To bridge this visual-logical gap, we introduce P1-VL, a family of open-source vision-language models engineered for advanced scientific reasoning. Our method harmonizes Curriculum Reinforcement Learning, which employs progressive difficulty expansion to stabilize post-training, with Agentic Augmentation, enabling iterative self-verification at inference. Evaluated on HiPhO, a rigorous benchmark of 13 exams from 2024-2025, our flagship P1-VL-235B-A22B becomes the first open-source Vision-Language Model (VLM) to secure 12 gold medals and achieves the state-of-the-art performance in the open-source models. Our agent-augmented system achieves the No.2 overall rank globally, trailing only Gemini-3-Pro. Beyond physics, P1-VL demonstrates remarkable scientific reasoning capacity and generalizability, establishing significant leads over base models in STEM benchmarks. By open-sourcing P1-VL, we provide a foundational step toward general-purpose physical intelligence to better align visual perceptions with abstract physical laws for machine scientific discovery.
PDF511February 12, 2026