ChatPaper.aiChatPaper

Imitando o Olhar do Físico: Uma Abordagem Centrada em VLM para a Descoberta de Fórmulas Físicas

Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery

August 24, 2025
Autores: Jiaqi Liu, Songning Lai, Pengze Li, Di Yu, Wenjie Zhou, Yiyang Zhou, Peng Xia, Zijun Wang, Xi Chen, Shixiang Tang, Lei Bai, Wanli Ouyang, Mingyu Ding, Huaxiu Yao, Aoran Wang
cs.AI

Resumo

A descoberta automatizada de leis físicas a partir de dados observacionais no mundo real é um grande desafio na IA. Os métodos atuais, que dependem de regressão simbólica ou LLMs, são limitados a dados unimodais e ignoram as ricas representações fenomenológicas visuais do movimento que são indispensáveis para os físicos. Essa "privação sensorial" enfraquece severamente sua capacidade de interpretar os padrões espaço-temporais inerentes aos fenômenos dinâmicos. Para abordar essa lacuna, propomos o VIPER-R1, um modelo multimodal que realiza Indução Visual para Raciocínio de Equações Baseadas em Física para descobrir fórmulas simbólicas fundamentais. Ele integra percepção visual, dados de trajetória e raciocínio simbólico para emular o processo de descoberta científica. O modelo é treinado por meio de um currículo de Indução de Estrutura de Movimento (MSI), usando ajuste fino supervisionado para interpretar retratos de fase cinemática e construir hipóteses guiadas por uma Cadeia de Pensamento Causal (C-CoT), seguido por Calibração Simbólica Orientada por Recompensa (RGSC) para refinar a estrutura da fórmula com aprendizado por reforço. Durante a inferência, o VIPER-R1 treinado age como um agente: primeiro propõe um ansatz simbólico de alta confiança, depois invoca proativamente uma ferramenta externa de regressão simbólica para realizar Realinhamento de Resíduo Simbólico (SR^2). Essa etapa final, análoga à análise de perturbação de um físico, reconcilia o modelo teórico com os dados empíricos. Para apoiar essa pesquisa, introduzimos o PhysSymbol, um novo corpus multimodal com 5.000 instâncias. Experimentos mostram que o VIPER-R1 supera consistentemente as linhas de base VLM state-of-the-art em precisão e interpretabilidade, permitindo uma descoberta mais precisa das leis físicas. Página do projeto: https://jiaaqiliu.github.io/VIPER-R1/
English
Automated discovery of physical laws from observational data in the real world is a grand challenge in AI. Current methods, relying on symbolic regression or LLMs, are limited to uni-modal data and overlook the rich, visual phenomenological representations of motion that are indispensable to physicists. This "sensory deprivation" severely weakens their ability to interpret the inherent spatio-temporal patterns within dynamic phenomena. To address this gap, we propose VIPER-R1, a multimodal model that performs Visual Induction for Physics-based Equation Reasoning to discover fundamental symbolic formulas. It integrates visual perception, trajectory data, and symbolic reasoning to emulate the scientific discovery process. The model is trained via a curriculum of Motion Structure Induction (MSI), using supervised fine-tuning to interpret kinematic phase portraits and to construct hypotheses guided by a Causal Chain of Thought (C-CoT), followed by Reward-Guided Symbolic Calibration (RGSC) to refine the formula structure with reinforcement learning. During inference, the trained VIPER-R1 acts as an agent: it first posits a high-confidence symbolic ansatz, then proactively invokes an external symbolic regression tool to perform Symbolic Residual Realignment (SR^2). This final step, analogous to a physicist's perturbation analysis, reconciles the theoretical model with empirical data. To support this research, we introduce PhysSymbol, a new 5,000-instance multimodal corpus. Experiments show that VIPER-R1 consistently outperforms state-of-the-art VLM baselines in accuracy and interpretability, enabling more precise discovery of physical laws. Project page: https://jiaaqiliu.github.io/VIPER-R1/
PDF52September 1, 2025