ChatPaper.aiChatPaper

Imitando l'occhio del fisico: un approccio centrato sui VLM per la scoperta di formule fisiche

Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery

August 24, 2025
Autori: Jiaqi Liu, Songning Lai, Pengze Li, Di Yu, Wenjie Zhou, Yiyang Zhou, Peng Xia, Zijun Wang, Xi Chen, Shixiang Tang, Lei Bai, Wanli Ouyang, Mingyu Ding, Huaxiu Yao, Aoran Wang
cs.AI

Abstract

La scoperta automatizzata di leggi fisiche a partire da dati osservativi nel mondo reale rappresenta una grande sfida per l'IA. I metodi attuali, che si basano sulla regressione simbolica o sui modelli linguistici di grandi dimensioni (LLM), sono limitati a dati unimodali e trascurano le ricche rappresentazioni fenomenologiche visive del movimento, indispensabili per i fisici. Questa "deprivazione sensoriale" indebolisce gravemente la loro capacità di interpretare i modelli spazio-temporali intrinseci nei fenomeni dinamici. Per colmare questa lacuna, proponiamo VIPER-R1, un modello multimodale che esegue l'Induzione Visiva per il Ragionamento su Equazioni Fisiche (Visual Induction for Physics-based Equation Reasoning) per scoprire formule simboliche fondamentali. Esso integra percezione visiva, dati di traiettoria e ragionamento simbolico per emulare il processo di scoperta scientifica. Il modello viene addestrato attraverso un curriculum di Induzione della Struttura del Movimento (Motion Structure Induction, MSI), utilizzando un affinamento supervisionato per interpretare i ritratti di fase cinematici e costruire ipotesi guidate da una Catena Causale del Pensiero (Causal Chain of Thought, C-CoT), seguita da una Calibrazione Simbolica Guidata da Ricompensa (Reward-Guided Symbolic Calibration, RGSC) per affinare la struttura della formula con l'apprendimento per rinforzo. Durante l'inferenza, il VIPER-R1 addestrato agisce come un agente: prima formula un'ipotesi simbolica ad alta confidenza, poi invoca proattivamente uno strumento esterno di regressione simbolica per eseguire un Riallineamento Simbolico dei Residui (Symbolic Residual Realignment, SR^2). Questo passaggio finale, analogo all'analisi delle perturbazioni di un fisico, riconcilia il modello teorico con i dati empirici. Per supportare questa ricerca, introduciamo PhysSymbol, un nuovo corpus multimodale di 5.000 istanze. Gli esperimenti dimostrano che VIPER-R1 supera costantemente i modelli di riferimento VLM (Vision-Language Models) all'avanguardia in termini di accuratezza e interpretabilità, consentendo una scoperta più precisa delle leggi fisiche. Pagina del progetto: https://jiaaqiliu.github.io/VIPER-R1/
English
Automated discovery of physical laws from observational data in the real world is a grand challenge in AI. Current methods, relying on symbolic regression or LLMs, are limited to uni-modal data and overlook the rich, visual phenomenological representations of motion that are indispensable to physicists. This "sensory deprivation" severely weakens their ability to interpret the inherent spatio-temporal patterns within dynamic phenomena. To address this gap, we propose VIPER-R1, a multimodal model that performs Visual Induction for Physics-based Equation Reasoning to discover fundamental symbolic formulas. It integrates visual perception, trajectory data, and symbolic reasoning to emulate the scientific discovery process. The model is trained via a curriculum of Motion Structure Induction (MSI), using supervised fine-tuning to interpret kinematic phase portraits and to construct hypotheses guided by a Causal Chain of Thought (C-CoT), followed by Reward-Guided Symbolic Calibration (RGSC) to refine the formula structure with reinforcement learning. During inference, the trained VIPER-R1 acts as an agent: it first posits a high-confidence symbolic ansatz, then proactively invokes an external symbolic regression tool to perform Symbolic Residual Realignment (SR^2). This final step, analogous to a physicist's perturbation analysis, reconciles the theoretical model with empirical data. To support this research, we introduce PhysSymbol, a new 5,000-instance multimodal corpus. Experiments show that VIPER-R1 consistently outperforms state-of-the-art VLM baselines in accuracy and interpretability, enabling more precise discovery of physical laws. Project page: https://jiaaqiliu.github.io/VIPER-R1/
PDF62September 1, 2025