P1-VL: Uniendo la Percepción Visual y el Razonamiento Científico en las Olimpiadas de Física
P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads
February 10, 2026
Autores: Yun Luo, Futing Wang, Qianjia Cheng, Fangchen Yu, Haodi Lei, Jianhao Yan, Chenxi Li, Jiacheng Chen, Yufeng Zhao, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Wenxuan Zeng, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui
cs.AI
Resumen
La transición de la manipulación simbólica al razonamiento de nivel científico representa una frontera crucial para los Modelos de Lenguaje a Gran Escala (LLMs), donde la física sirve como prueba fundamental para vincular la lógica abstracta con la realidad física. La física exige que un modelo mantenga coherencia física con las leyes que gobiernan el universo, una tarea que requiere fundamentalmente percepción multimodal para anclar la lógica abstracta en la realidad. A nivel de Olimpiada, los diagramas suelen ser constitutivos y no meramente ilustrativos, conteniendo restricciones esenciales, como condiciones de contorno y simetrías espaciales, que están ausentes en el texto. Para salvar esta brecha visual-lógica, presentamos P1-VL, una familia de modelos de visión y lenguaje de código abierto diseñados para el razonamiento científico avanzado. Nuestro método armoniza el Aprendizaje por Refuerzo Curricular, que emplea una expansión progresiva de la dificultad para estabilizar el post-entrenamiento, con la Ampliación Agéntica, permitiendo una auto-verificación iterativa durante la inferencia. Evaluado en HiPhO, un riguroso benchmark que incluye 13 exámenes de 2024-2025, nuestro modelo principal P1-VL-235B-A22B se convierte en el primer Modelo de Visión y Lenguaje (VLM) de código abierto en obtener 12 medallas de oro y logra el rendimiento de vanguardia entre los modelos de código abierto. Nuestro sistema aumentado de forma agéntica alcanza el puesto No.2 en la clasificación global, solo por detrás de Gemini-3-Pro. Más allá de la física, P1-VL demuestra una notable capacidad de razonamiento científico y generalización, estableciendo ventajas significativas sobre los modelos base en benchmarks de STEM. Al liberar P1-VL como código abierto, proporcionamos un paso fundamental hacia la inteligencia física de propósito general para alinear mejor las percepciones visuales con las leyes físicas abstractas en la descubierta científica automatizada.
English
The transition from symbolic manipulation to science-grade reasoning represents a pivotal frontier for Large Language Models (LLMs), with physics serving as the critical test anchor for binding abstract logic to physical reality. Physics demands that a model maintain physical consistency with the laws governing the universe, a task that fundamentally requires multimodal perception to ground abstract logic in reality. At the Olympiad level, diagrams are often constitutive rather than illustrative, containing essential constraints, such as boundary conditions and spatial symmetries, that are absent from the text. To bridge this visual-logical gap, we introduce P1-VL, a family of open-source vision-language models engineered for advanced scientific reasoning. Our method harmonizes Curriculum Reinforcement Learning, which employs progressive difficulty expansion to stabilize post-training, with Agentic Augmentation, enabling iterative self-verification at inference. Evaluated on HiPhO, a rigorous benchmark of 13 exams from 2024-2025, our flagship P1-VL-235B-A22B becomes the first open-source Vision-Language Model (VLM) to secure 12 gold medals and achieves the state-of-the-art performance in the open-source models. Our agent-augmented system achieves the No.2 overall rank globally, trailing only Gemini-3-Pro. Beyond physics, P1-VL demonstrates remarkable scientific reasoning capacity and generalizability, establishing significant leads over base models in STEM benchmarks. By open-sourcing P1-VL, we provide a foundational step toward general-purpose physical intelligence to better align visual perceptions with abstract physical laws for machine scientific discovery.