Nachahmung des Physikerblicks: Ein VLM-zentrierter Ansatz zur Entdeckung physikalischer Formeln
Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery
August 24, 2025
papers.authors: Jiaqi Liu, Songning Lai, Pengze Li, Di Yu, Wenjie Zhou, Yiyang Zhou, Peng Xia, Zijun Wang, Xi Chen, Shixiang Tang, Lei Bai, Wanli Ouyang, Mingyu Ding, Huaxiu Yao, Aoran Wang
cs.AI
papers.abstract
Die automatisierte Entdeckung physikalischer Gesetze aus Beobachtungsdaten in der realen Welt stellt eine große Herausforderung in der KI dar. Aktuelle Methoden, die sich auf symbolische Regression oder LLMs stützen, sind auf unimodale Daten beschränkt und übersehen die reichhaltigen, visuellen phänomenologischen Darstellungen von Bewegung, die für Physiker unverzichtbar sind. Diese „sensorische Deprivation“ schwächt ihre Fähigkeit, die inhärenten räumlich-zeitlichen Muster innerhalb dynamischer Phänomene zu interpretieren, erheblich. Um diese Lücke zu schließen, schlagen wir VIPER-R1 vor, ein multimodales Modell, das visuelle Induktion für physikbasierte Gleichungslogik durchführt, um fundamentale symbolische Formeln zu entdecken. Es integriert visuelle Wahrnehmung, Trajektoriendaten und symbolische Logik, um den wissenschaftlichen Entdeckungsprozess nachzuahmen. Das Modell wird über einen Lehrplan der Bewegungsstrukturinduktion (MSI) trainiert, wobei überwachtes Fein-Tuning verwendet wird, um kinematische Phasenporträts zu interpretieren und Hypothesen zu konstruieren, die durch eine Kausale Gedankenkette (C-CoT) geleitet werden, gefolgt von einer belohnungsgesteuerten symbolischen Kalibrierung (RGSC), um die Formelstruktur mit Verstärkungslernen zu verfeinern. Während der Inferenz agiert das trainierte VIPER-R1 als Agent: Es stellt zunächst eine symbolische Ansatzfunktion mit hohem Vertrauen auf und ruft dann proaktiv ein externes symbolisches Regressionstool auf, um eine symbolische Restrealignment (SR^2) durchzuführen. Dieser letzte Schritt, analog zur Störungsanalyse eines Physikers, bringt das theoretische Modell mit empirischen Daten in Einklang. Um diese Forschung zu unterstützen, führen wir PhysSymbol ein, einen neuen multimodalen Korpus mit 5.000 Instanzen. Experimente zeigen, dass VIPER-R1 in Bezug auf Genauigkeit und Interpretierbarkeit durchweg state-of-the-art VLM-Baselines übertrifft und eine präzisere Entdeckung physikalischer Gesetze ermöglicht. Projektseite: https://jiaaqiliu.github.io/VIPER-R1/
English
Automated discovery of physical laws from observational data in the real
world is a grand challenge in AI. Current methods, relying on symbolic
regression or LLMs, are limited to uni-modal data and overlook the rich, visual
phenomenological representations of motion that are indispensable to
physicists. This "sensory deprivation" severely weakens their ability to
interpret the inherent spatio-temporal patterns within dynamic phenomena. To
address this gap, we propose VIPER-R1, a multimodal model that performs Visual
Induction for Physics-based Equation Reasoning to discover fundamental symbolic
formulas. It integrates visual perception, trajectory data, and symbolic
reasoning to emulate the scientific discovery process. The model is trained via
a curriculum of Motion Structure Induction (MSI), using supervised fine-tuning
to interpret kinematic phase portraits and to construct hypotheses guided by a
Causal Chain of Thought (C-CoT), followed by Reward-Guided Symbolic Calibration
(RGSC) to refine the formula structure with reinforcement learning. During
inference, the trained VIPER-R1 acts as an agent: it first posits a
high-confidence symbolic ansatz, then proactively invokes an external symbolic
regression tool to perform Symbolic Residual Realignment (SR^2). This final
step, analogous to a physicist's perturbation analysis, reconciles the
theoretical model with empirical data. To support this research, we introduce
PhysSymbol, a new 5,000-instance multimodal corpus. Experiments show that
VIPER-R1 consistently outperforms state-of-the-art VLM baselines in accuracy
and interpretability, enabling more precise discovery of physical laws. Project
page: https://jiaaqiliu.github.io/VIPER-R1/