Het nabootsen van het oog van de natuurkundige: Een VLM-gerichte aanpak voor de ontdekking van natuurkundige formules
Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery
August 24, 2025
Auteurs: Jiaqi Liu, Songning Lai, Pengze Li, Di Yu, Wenjie Zhou, Yiyang Zhou, Peng Xia, Zijun Wang, Xi Chen, Shixiang Tang, Lei Bai, Wanli Ouyang, Mingyu Ding, Huaxiu Yao, Aoran Wang
cs.AI
Samenvatting
Het automatisch ontdekken van natuurwetten uit observationele gegevens in de echte wereld is een grote uitdaging in AI. Huidige methoden, die vertrouwen op symbolische regressie of LLM's, zijn beperkt tot unimodale gegevens en negeren de rijke, visuele fenomenologische representaties van beweging die onmisbaar zijn voor natuurkundigen. Deze "sensorische deprivatie" verzwakt hun vermogen om de inherente ruimtelijk-temporele patronen binnen dynamische fenomenen te interpreteren ernstig. Om deze kloof te overbruggen, stellen we VIPER-R1 voor, een multimodaal model dat Visual Induction for Physics-based Equation Reasoning uitvoert om fundamentele symbolische formules te ontdekken. Het integreert visuele perceptie, trajectgegevens en symbolisch redeneren om het wetenschappelijke ontdekkingproces na te bootsen. Het model wordt getraind via een curriculum van Motion Structure Induction (MSI), waarbij gebruik wordt gemaakt van supervised fine-tuning om kinematische faseportretten te interpreteren en hypothesen te construeren die worden geleid door een Causal Chain of Thought (C-CoT), gevolgd door Reward-Guided Symbolic Calibration (RGSC) om de formulesstructuur te verfijnen met reinforcement learning. Tijdens inferentie fungeert het getrainde VIPER-R1 als een agent: het stelt eerst een symbolische ansatz met hoge betrouwbaarheid voor, roept vervolgens proactief een extern symbolisch regressietool op om Symbolic Residual Realignment (SR^2) uit te voeren. Deze laatste stap, analoog aan de verstoringsanalyse van een natuurkundige, brengt het theoretische model in overeenstemming met empirische gegevens. Om dit onderzoek te ondersteunen, introduceren we PhysSymbol, een nieuwe multimodale corpus van 5.000 instanties. Experimenten tonen aan dat VIPER-R1 consistent beter presteert dan state-of-the-art VLM-baselines in nauwkeurigheid en interpreteerbaarheid, waardoor een preciezere ontdekking van natuurwetten mogelijk wordt gemaakt. Projectpagina: https://jiaaqiliu.github.io/VIPER-R1/
English
Automated discovery of physical laws from observational data in the real
world is a grand challenge in AI. Current methods, relying on symbolic
regression or LLMs, are limited to uni-modal data and overlook the rich, visual
phenomenological representations of motion that are indispensable to
physicists. This "sensory deprivation" severely weakens their ability to
interpret the inherent spatio-temporal patterns within dynamic phenomena. To
address this gap, we propose VIPER-R1, a multimodal model that performs Visual
Induction for Physics-based Equation Reasoning to discover fundamental symbolic
formulas. It integrates visual perception, trajectory data, and symbolic
reasoning to emulate the scientific discovery process. The model is trained via
a curriculum of Motion Structure Induction (MSI), using supervised fine-tuning
to interpret kinematic phase portraits and to construct hypotheses guided by a
Causal Chain of Thought (C-CoT), followed by Reward-Guided Symbolic Calibration
(RGSC) to refine the formula structure with reinforcement learning. During
inference, the trained VIPER-R1 acts as an agent: it first posits a
high-confidence symbolic ansatz, then proactively invokes an external symbolic
regression tool to perform Symbolic Residual Realignment (SR^2). This final
step, analogous to a physicist's perturbation analysis, reconciles the
theoretical model with empirical data. To support this research, we introduce
PhysSymbol, a new 5,000-instance multimodal corpus. Experiments show that
VIPER-R1 consistently outperforms state-of-the-art VLM baselines in accuracy
and interpretability, enabling more precise discovery of physical laws. Project
page: https://jiaaqiliu.github.io/VIPER-R1/