ChatPaper.aiChatPaper

P1-VL : Relier la perception visuelle et le raisonnement scientifique lors des Olympiades de Physique

P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads

February 10, 2026
papers.authors: Yun Luo, Futing Wang, Qianjia Cheng, Fangchen Yu, Haodi Lei, Jianhao Yan, Chenxi Li, Jiacheng Chen, Yufeng Zhao, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Wenxuan Zeng, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui
cs.AI

papers.abstract

La transition de la manipulation symbolique vers le raisonnement scientifique de haut niveau représente une frontière cruciale pour les Grands Modèles de Langage (LLM), la physique servant de test décisif pour lier la logique abstraite à la réalité physique. La physique exige qu'un modèle maintienne une cohérence physique avec les lois qui régissent l'univers, une tâche qui nécessite fondamentalement une perception multimodale pour ancrer la logique abstraite dans la réalité. Au niveau des Olympiades, les diagrammes sont souvent constitutifs plutôt qu'illustratifs, contenant des contraintes essentielles, telles que les conditions aux limites et les symétries spatiales, qui sont absentes du texte. Pour combler cette lacune visuo-logique, nous présentons P1-VL, une famille de modèles vision-langage open-source conçus pour un raisonnement scientifique avancé. Notre méthode harmonise l'Apprentissage par Renforcement Curriculaire, qui utilise une expansion progressive de la difficulté pour stabiliser le post-entraînement, avec l'Augmentation Agentique, permettant une auto-vérification itérative lors de l'inférence. Évalué sur HiPhO, un benchmark rigoureux comprenant 13 examens de 2024-2025, notre modèle phare P1-VL-235B-A22B devient le premier Modèle Vision-Langage (VLM) open-source à remporter 12 médailles d'or et obtient des performances à l'état de l'art parmi les modèles open-source. Notre système augmenté par agent atteint le 2ᵉ rang mondial global, juste derrière Gemini-3-Pro. Au-delà de la physique, P1-VL démontre une capacité remarquable de raisonnement scientifique et une grande généralisabilité, établissant une avance significative sur les modèles de base dans les benchmarks STEM. En ouvrant le code de P1-VL, nous fournissons une étape fondatrice vers une intelligence physique à usage général, pour mieux aligner les perceptions visuelles avec les lois physiques abstraites afin de favoriser la découverte scientifique automatisée.
English
The transition from symbolic manipulation to science-grade reasoning represents a pivotal frontier for Large Language Models (LLMs), with physics serving as the critical test anchor for binding abstract logic to physical reality. Physics demands that a model maintain physical consistency with the laws governing the universe, a task that fundamentally requires multimodal perception to ground abstract logic in reality. At the Olympiad level, diagrams are often constitutive rather than illustrative, containing essential constraints, such as boundary conditions and spatial symmetries, that are absent from the text. To bridge this visual-logical gap, we introduce P1-VL, a family of open-source vision-language models engineered for advanced scientific reasoning. Our method harmonizes Curriculum Reinforcement Learning, which employs progressive difficulty expansion to stabilize post-training, with Agentic Augmentation, enabling iterative self-verification at inference. Evaluated on HiPhO, a rigorous benchmark of 13 exams from 2024-2025, our flagship P1-VL-235B-A22B becomes the first open-source Vision-Language Model (VLM) to secure 12 gold medals and achieves the state-of-the-art performance in the open-source models. Our agent-augmented system achieves the No.2 overall rank globally, trailing only Gemini-3-Pro. Beyond physics, P1-VL demonstrates remarkable scientific reasoning capacity and generalizability, establishing significant leads over base models in STEM benchmarks. By open-sourcing P1-VL, we provide a foundational step toward general-purpose physical intelligence to better align visual perceptions with abstract physical laws for machine scientific discovery.
PDF511February 12, 2026