ChatPaper.aiChatPaper

Imitando el ojo del físico: Un enfoque centrado en VLM para el descubrimiento de fórmulas físicas

Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery

August 24, 2025
Autores: Jiaqi Liu, Songning Lai, Pengze Li, Di Yu, Wenjie Zhou, Yiyang Zhou, Peng Xia, Zijun Wang, Xi Chen, Shixiang Tang, Lei Bai, Wanli Ouyang, Mingyu Ding, Huaxiu Yao, Aoran Wang
cs.AI

Resumen

El descubrimiento automatizado de leyes físicas a partir de datos observacionales en el mundo real representa un gran desafío en la IA. Los métodos actuales, que dependen de regresión simbólica o modelos de lenguaje grandes (LLMs), se limitan a datos unimodales y pasan por alto las ricas representaciones fenomenológicas visuales del movimiento, que son indispensables para los físicos. Esta "privación sensorial" debilita severamente su capacidad para interpretar los patrones espacio-temporales inherentes a los fenómenos dinámicos. Para abordar esta brecha, proponemos VIPER-R1, un modelo multimodal que realiza Inducción Visual para el Razonamiento de Ecuaciones Basadas en Física, con el fin de descubrir fórmulas simbólicas fundamentales. Este modelo integra percepción visual, datos de trayectorias y razonamiento simbólico para emular el proceso de descubrimiento científico. El modelo se entrena mediante un currículo de Inducción de Estructura de Movimiento (MSI), utilizando ajuste fino supervisado para interpretar retratos de fase cinemática y construir hipótesis guiadas por una Cadena de Pensamiento Causal (C-CoT), seguido de Calibración Simbólica Guiada por Recompensa (RGSC) para refinar la estructura de la fórmula con aprendizaje por refuerzo. Durante la inferencia, el VIPER-R1 entrenado actúa como un agente: primero postula un ansatz simbólico de alta confianza, luego invoca proactivamente una herramienta externa de regresión simbólica para realizar Realineación de Residuos Simbólicos (SR^2). Este último paso, análogo al análisis de perturbaciones de un físico, reconcilia el modelo teórico con los datos empíricos. Para apoyar esta investigación, presentamos PhysSymbol, un nuevo corpus multimodal de 5,000 instancias. Los experimentos muestran que VIPER-R1 supera consistentemente a los modelos de lenguaje visual (VLM) de última generación en precisión e interpretabilidad, permitiendo un descubrimiento más preciso de las leyes físicas. Página del proyecto: https://jiaaqiliu.github.io/VIPER-R1/
English
Automated discovery of physical laws from observational data in the real world is a grand challenge in AI. Current methods, relying on symbolic regression or LLMs, are limited to uni-modal data and overlook the rich, visual phenomenological representations of motion that are indispensable to physicists. This "sensory deprivation" severely weakens their ability to interpret the inherent spatio-temporal patterns within dynamic phenomena. To address this gap, we propose VIPER-R1, a multimodal model that performs Visual Induction for Physics-based Equation Reasoning to discover fundamental symbolic formulas. It integrates visual perception, trajectory data, and symbolic reasoning to emulate the scientific discovery process. The model is trained via a curriculum of Motion Structure Induction (MSI), using supervised fine-tuning to interpret kinematic phase portraits and to construct hypotheses guided by a Causal Chain of Thought (C-CoT), followed by Reward-Guided Symbolic Calibration (RGSC) to refine the formula structure with reinforcement learning. During inference, the trained VIPER-R1 acts as an agent: it first posits a high-confidence symbolic ansatz, then proactively invokes an external symbolic regression tool to perform Symbolic Residual Realignment (SR^2). This final step, analogous to a physicist's perturbation analysis, reconciles the theoretical model with empirical data. To support this research, we introduce PhysSymbol, a new 5,000-instance multimodal corpus. Experiments show that VIPER-R1 consistently outperforms state-of-the-art VLM baselines in accuracy and interpretability, enabling more precise discovery of physical laws. Project page: https://jiaaqiliu.github.io/VIPER-R1/
PDF42September 1, 2025