Nachahmung des Physikerblicks: Ein VLM-zentrierter Ansatz zur Entdeckung physikalischer Formeln

papers.abstract

Die automatisierte Entdeckung physikalischer Gesetze aus Beobachtungsdaten in der realen Welt stellt eine große Herausforderung in der KI dar. Aktuelle Methoden, die sich auf symbolische Regression oder LLMs stützen, sind auf unimodale Daten beschränkt und übersehen die reichhaltigen, visuellen phänomenologischen Darstellungen von Bewegung, die für Physiker unverzichtbar sind. Diese „sensorische Deprivation“ schwächt ihre Fähigkeit, die inhärenten räumlich-zeitlichen Muster innerhalb dynamischer Phänomene zu interpretieren, erheblich. Um diese Lücke zu schließen, schlagen wir VIPER-R1 vor, ein multimodales Modell, das visuelle Induktion für physikbasierte Gleichungslogik durchführt, um fundamentale symbolische Formeln zu entdecken. Es integriert visuelle Wahrnehmung, Trajektoriendaten und symbolische Logik, um den wissenschaftlichen Entdeckungsprozess nachzuahmen. Das Modell wird über einen Lehrplan der Bewegungsstrukturinduktion (MSI) trainiert, wobei überwachtes Fein-Tuning verwendet wird, um kinematische Phasenporträts zu interpretieren und Hypothesen zu konstruieren, die durch eine Kausale Gedankenkette (C-CoT) geleitet werden, gefolgt von einer belohnungsgesteuerten symbolischen Kalibrierung (RGSC), um die Formelstruktur mit Verstärkungslernen zu verfeinern. Während der Inferenz agiert das trainierte VIPER-R1 als Agent: Es stellt zunächst eine symbolische Ansatzfunktion mit hohem Vertrauen auf und ruft dann proaktiv ein externes symbolisches Regressionstool auf, um eine symbolische Restrealignment (SR^2) durchzuführen. Dieser letzte Schritt, analog zur Störungsanalyse eines Physikers, bringt das theoretische Modell mit empirischen Daten in Einklang. Um diese Forschung zu unterstützen, führen wir PhysSymbol ein, einen neuen multimodalen Korpus mit 5.000 Instanzen. Experimente zeigen, dass VIPER-R1 in Bezug auf Genauigkeit und Interpretierbarkeit durchweg state-of-the-art VLM-Baselines übertrifft und eine präzisere Entdeckung physikalischer Gesetze ermöglicht. Projektseite: https://jiaaqiliu.github.io/VIPER-R1/

English

Automated discovery of physical laws from observational data in the real world is a grand challenge in AI. Current methods, relying on symbolic regression or LLMs, are limited to uni-modal data and overlook the rich, visual phenomenological representations of motion that are indispensable to physicists. This "sensory deprivation" severely weakens their ability to interpret the inherent spatio-temporal patterns within dynamic phenomena. To address this gap, we propose VIPER-R1, a multimodal model that performs Visual Induction for Physics-based Equation Reasoning to discover fundamental symbolic formulas. It integrates visual perception, trajectory data, and symbolic reasoning to emulate the scientific discovery process. The model is trained via a curriculum of Motion Structure Induction (MSI), using supervised fine-tuning to interpret kinematic phase portraits and to construct hypotheses guided by a Causal Chain of Thought (C-CoT), followed by Reward-Guided Symbolic Calibration (RGSC) to refine the formula structure with reinforcement learning. During inference, the trained VIPER-R1 acts as an agent: it first posits a high-confidence symbolic ansatz, then proactively invokes an external symbolic regression tool to perform Symbolic Residual Realignment (SR^2). This final step, analogous to a physicist's perturbation analysis, reconciles the theoretical model with empirical data. To support this research, we introduce PhysSymbol, a new 5,000-instance multimodal corpus. Experiments show that VIPER-R1 consistently outperforms state-of-the-art VLM baselines in accuracy and interpretability, enabling more precise discovery of physical laws. Project page: https://jiaaqiliu.github.io/VIPER-R1/

Nachahmung des Physikerblicks: Ein VLM-zentrierter Ansatz zur Entdeckung physikalischer Formeln

Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery

papers.abstract

Support