Imiter l'œil du physicien : Une approche centrée sur les modèles de langage visuel pour la découverte de formules physiques
Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery
August 24, 2025
papers.authors: Jiaqi Liu, Songning Lai, Pengze Li, Di Yu, Wenjie Zhou, Yiyang Zhou, Peng Xia, Zijun Wang, Xi Chen, Shixiang Tang, Lei Bai, Wanli Ouyang, Mingyu Ding, Huaxiu Yao, Aoran Wang
cs.AI
papers.abstract
La découverte automatisée de lois physiques à partir de données observationnelles dans le monde réel constitue un défi majeur en IA. Les méthodes actuelles, reposant sur la régression symbolique ou les LLMs, se limitent à des données unimodales et négligent les riches représentations phénoménologiques visuelles du mouvement, essentielles pour les physiciens. Cette "privation sensorielle" affaiblit considérablement leur capacité à interpréter les motifs spatio-temporels inhérents aux phénomènes dynamiques. Pour combler cette lacune, nous proposons VIPER-R1, un modèle multimodal qui effectue une Induction Visuelle pour le Raisonnement d'Équations Physiques afin de découvrir des formules symboliques fondamentales. Il intègre la perception visuelle, les données de trajectoire et le raisonnement symbolique pour imiter le processus de découverte scientifique. Le modèle est entraîné via un curriculum d'Induction de Structure de Mouvement (MSI), utilisant un réglage fin supervisé pour interpréter les portraits de phase cinématiques et construire des hypothèses guidées par une Chaîne de Pensée Causale (C-CoT), suivie d'une Calibration Symbolique Guidée par Récompense (RGSC) pour affiner la structure des formules avec l'apprentissage par renforcement. Lors de l'inférence, le VIPER-R1 entraîné agit comme un agent : il propose d'abord une ansatz symbolique de haute confiance, puis invoque activement un outil externe de régression symbolique pour effectuer un Réalignement Résiduel Symbolique (SR^2). Cette étape finale, analogue à l'analyse de perturbation d'un physicien, réconcilie le modèle théorique avec les données empiriques. Pour soutenir cette recherche, nous introduisons PhysSymbol, un nouveau corpus multimodal de 5 000 instances. Les expériences montrent que VIPER-R1 surpasse systématiquement les modèles de référence VLM en termes de précision et d'interprétabilité, permettant une découverte plus précise des lois physiques. Page du projet : https://jiaaqiliu.github.io/VIPER-R1/
English
Automated discovery of physical laws from observational data in the real
world is a grand challenge in AI. Current methods, relying on symbolic
regression or LLMs, are limited to uni-modal data and overlook the rich, visual
phenomenological representations of motion that are indispensable to
physicists. This "sensory deprivation" severely weakens their ability to
interpret the inherent spatio-temporal patterns within dynamic phenomena. To
address this gap, we propose VIPER-R1, a multimodal model that performs Visual
Induction for Physics-based Equation Reasoning to discover fundamental symbolic
formulas. It integrates visual perception, trajectory data, and symbolic
reasoning to emulate the scientific discovery process. The model is trained via
a curriculum of Motion Structure Induction (MSI), using supervised fine-tuning
to interpret kinematic phase portraits and to construct hypotheses guided by a
Causal Chain of Thought (C-CoT), followed by Reward-Guided Symbolic Calibration
(RGSC) to refine the formula structure with reinforcement learning. During
inference, the trained VIPER-R1 acts as an agent: it first posits a
high-confidence symbolic ansatz, then proactively invokes an external symbolic
regression tool to perform Symbolic Residual Realignment (SR^2). This final
step, analogous to a physicist's perturbation analysis, reconciles the
theoretical model with empirical data. To support this research, we introduce
PhysSymbol, a new 5,000-instance multimodal corpus. Experiments show that
VIPER-R1 consistently outperforms state-of-the-art VLM baselines in accuracy
and interpretability, enabling more precise discovery of physical laws. Project
page: https://jiaaqiliu.github.io/VIPER-R1/