P1-VL: Conectando Percepção Visual e Raciocínio Científico em Olimpíadas de Física

Resumo

A transição da manipulação simbólica para o raciocínio de nível científico representa uma fronteira pivotal para os Grandes Modelos de Linguagem (LLMs), com a física servindo como âncora crítica de teste para vincular a lógica abstrata à realidade física. A física exige que um modelo mantenha consistência física com as leis que regem o universo, uma tarefa que fundamentalmente requer percepção multimodal para fundamentar a lógica abstrata na realidade. No nível de Olimpíada, os diagramas são frequentemente constitutivos e não meramente ilustrativos, contendo restrições essenciais, como condições de contorno e simetrias espaciais, que estão ausentes do texto. Para preencher esta lacuna visual-lógica, introduzimos o P1-VL, uma família de modelos de visão e linguagem de código aberto projetados para raciocínio científico avançado. Nosso método harmoniza o Aprendizado por Reforço com Currículo, que emprega uma expansão progressiva de dificuldade para estabilizar o pós-treinamento, com a Ampliação Agêntica, permitindo a autoverificação iterativa durante a inferência. Avaliado no HiPhO, um rigoroso benchmark composto por 13 exames de 2024-2025, nosso carro-chefe P1-VL-235B-A22B torna-se o primeiro Modelo de Linguagem de Visão (VLM) de código aberto a conquistar 12 medalhas de ouro e alcança o desempenho de ponta entre os modelos de código aberto. Nosso sistema aumentado por agente alcança a 2ª posição geral global, ficando atrás apenas do Gemini-3-Pro. Para além da física, o P1-VL demonstra uma notável capacidade de raciocínio científico e generalização, estabelecendo vantagens significativas sobre os modelos base em benchmarks de STEM. Ao disponibilizar o P1-VL como código aberto, fornecemos um passo fundamental em direção à inteligência física de propósito geral para melhor alinhar as percepções visuais com as leis físicas abstratas para a descoberta científica por máquinas.

English

The transition from symbolic manipulation to science-grade reasoning represents a pivotal frontier for Large Language Models (LLMs), with physics serving as the critical test anchor for binding abstract logic to physical reality. Physics demands that a model maintain physical consistency with the laws governing the universe, a task that fundamentally requires multimodal perception to ground abstract logic in reality. At the Olympiad level, diagrams are often constitutive rather than illustrative, containing essential constraints, such as boundary conditions and spatial symmetries, that are absent from the text. To bridge this visual-logical gap, we introduce P1-VL, a family of open-source vision-language models engineered for advanced scientific reasoning. Our method harmonizes Curriculum Reinforcement Learning, which employs progressive difficulty expansion to stabilize post-training, with Agentic Augmentation, enabling iterative self-verification at inference. Evaluated on HiPhO, a rigorous benchmark of 13 exams from 2024-2025, our flagship P1-VL-235B-A22B becomes the first open-source Vision-Language Model (VLM) to secure 12 gold medals and achieves the state-of-the-art performance in the open-source models. Our agent-augmented system achieves the No.2 overall rank globally, trailing only Gemini-3-Pro. Beyond physics, P1-VL demonstrates remarkable scientific reasoning capacity and generalizability, establishing significant leads over base models in STEM benchmarks. By open-sourcing P1-VL, we provide a foundational step toward general-purpose physical intelligence to better align visual perceptions with abstract physical laws for machine scientific discovery.

P1-VL: Conectando Percepção Visual e Raciocínio Científico em Olimpíadas de Física

P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads

Resumo

Support