P1-VL: Colmare il Divario tra Percezione Visiva e Ragionamento Scientifico nelle Olimpiadi della Fisica

Abstract

La transizione dalla manipolazione simbolica al ragionamento di livello scientifico rappresenta una frontiera cruciale per i Large Language Model (LLM), con la fisica che funge da banco di prova essenziale per ancorare la logica astratta alla realtà fisica. La fisica richiede che un modello mantenga la coerenza fisica con le leggi che governano l'universo, un compito che richiede fondamentalmente una percezione multimodale per radicare la logica astratta nella realtà. A livello olimpico, i diagrammi sono spesso costitutivi e non solo illustrativi, poiché contengono vincoli essenziali, come condizioni al contorno e simmetrie spaziali, assenti nel testo. Per colmare questo divario visivo-logico, introduciamo P1-VL, una famiglia di modelli vision-linguaggio open-source progettati per il ragionamento scientifico avanzato. Il nostro metodo armonizza il Curriculum Reinforcement Learning, che impiega un'espansione progressiva della difficoltà per stabilizzare il post-addestramento, con l'Aumento Agente, abilitando un'auto-verifica iterativa durante l'inferenza. Valutato su HiPhO, un rigoroso benchmark basato su 13 esami dal 2024 al 2025, il nostro modello principale P1-VL-235B-A22B diventa il primo Vision-Language Model (VLM) open-source a conquistare 12 medaglie d'oro e raggiunge prestazioni all'avanguardia tra i modelli open-source. Il nostro sistema potenziato dall'agente raggiunge il 2° posto assoluto a livello globale, preceduto solo da Gemini-3-Pro. Oltre alla fisica, P1-VL dimostra una notevole capacità di ragionamento scientifico e generalizzabilità, stabilendo vantaggi significativi rispetto ai modelli base in benchmark STEM. Rilasciando open-source P1-VL, forniamo un passo fondamentale verso un'intelligenza fisica generica per allineare meglio le percezioni visive con le leggi fisiche astratte, favorendo la scoperta scientifica automatizzata.

English

The transition from symbolic manipulation to science-grade reasoning represents a pivotal frontier for Large Language Models (LLMs), with physics serving as the critical test anchor for binding abstract logic to physical reality. Physics demands that a model maintain physical consistency with the laws governing the universe, a task that fundamentally requires multimodal perception to ground abstract logic in reality. At the Olympiad level, diagrams are often constitutive rather than illustrative, containing essential constraints, such as boundary conditions and spatial symmetries, that are absent from the text. To bridge this visual-logical gap, we introduce P1-VL, a family of open-source vision-language models engineered for advanced scientific reasoning. Our method harmonizes Curriculum Reinforcement Learning, which employs progressive difficulty expansion to stabilize post-training, with Agentic Augmentation, enabling iterative self-verification at inference. Evaluated on HiPhO, a rigorous benchmark of 13 exams from 2024-2025, our flagship P1-VL-235B-A22B becomes the first open-source Vision-Language Model (VLM) to secure 12 gold medals and achieves the state-of-the-art performance in the open-source models. Our agent-augmented system achieves the No.2 overall rank globally, trailing only Gemini-3-Pro. Beyond physics, P1-VL demonstrates remarkable scientific reasoning capacity and generalizability, establishing significant leads over base models in STEM benchmarks. By open-sourcing P1-VL, we provide a foundational step toward general-purpose physical intelligence to better align visual perceptions with abstract physical laws for machine scientific discovery.

P1-VL: Colmare il Divario tra Percezione Visiva e Ragionamento Scientifico nelle Olimpiadi della Fisica

P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads

Abstract

Support