Подражание взгляду физика: VLM-ориентированный подход к обнаружению физических формул
Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery
August 24, 2025
Авторы: Jiaqi Liu, Songning Lai, Pengze Li, Di Yu, Wenjie Zhou, Yiyang Zhou, Peng Xia, Zijun Wang, Xi Chen, Shixiang Tang, Lei Bai, Wanli Ouyang, Mingyu Ding, Huaxiu Yao, Aoran Wang
cs.AI
Аннотация
Автоматизированное открытие физических законов на основе наблюдательных данных в реальном мире представляет собой одну из ключевых задач в области искусственного интеллекта. Современные методы, основанные на символьной регрессии или крупных языковых моделях (LLM), ограничиваются работой с унимодальными данными и игнорируют богатые визуальные феноменологические представления движения, которые являются неотъемлемой частью работы физиков. Такая "сенсорная депривация" существенно ослабляет их способность интерпретировать присущие динамическим явлениям пространственно-временные закономерности. Для устранения этого пробела мы предлагаем VIPER-R1 — мультимодальную модель, которая выполняет визуальную индукцию для физического уравнения (Visual Induction for Physics-based Equation Reasoning) с целью открытия фундаментальных символьных формул. Она интегрирует визуальное восприятие, данные траекторий и символьное рассуждение, чтобы имитировать процесс научного открытия. Модель обучается с использованием учебного плана индукции структуры движения (Motion Structure Induction, MSI), где применяется контролируемая тонкая настройка для интерпретации кинематических фазовых портретов и построения гипотез, направляемых причинно-следственной цепочкой рассуждений (Causal Chain of Thought, C-CoT), а затем используется калибровка символьной структуры с подкреплением (Reward-Guided Symbolic Calibration, RGSC) для уточнения структуры формулы. На этапе вывода обученная VIPER-R1 действует как агент: сначала она выдвигает символьный анзац с высокой уверенностью, а затем активно привлекает внешний инструмент символьной регрессии для выполнения символьного перевыравнивания остатков (Symbolic Residual Realignment, SR^2). Этот финальный шаг, аналогичный анализу возмущений физика, согласует теоретическую модель с эмпирическими данными. Для поддержки данного исследования мы представляем PhysSymbol — новый мультимодальный корпус, содержащий 5000 примеров. Эксперименты показывают, что VIPER-R1 стабильно превосходит современные базовые модели визуального языка (VLM) по точности и интерпретируемости, обеспечивая более точное открытие физических законов. Страница проекта: https://jiaaqiliu.github.io/VIPER-R1/
English
Automated discovery of physical laws from observational data in the real
world is a grand challenge in AI. Current methods, relying on symbolic
regression or LLMs, are limited to uni-modal data and overlook the rich, visual
phenomenological representations of motion that are indispensable to
physicists. This "sensory deprivation" severely weakens their ability to
interpret the inherent spatio-temporal patterns within dynamic phenomena. To
address this gap, we propose VIPER-R1, a multimodal model that performs Visual
Induction for Physics-based Equation Reasoning to discover fundamental symbolic
formulas. It integrates visual perception, trajectory data, and symbolic
reasoning to emulate the scientific discovery process. The model is trained via
a curriculum of Motion Structure Induction (MSI), using supervised fine-tuning
to interpret kinematic phase portraits and to construct hypotheses guided by a
Causal Chain of Thought (C-CoT), followed by Reward-Guided Symbolic Calibration
(RGSC) to refine the formula structure with reinforcement learning. During
inference, the trained VIPER-R1 acts as an agent: it first posits a
high-confidence symbolic ansatz, then proactively invokes an external symbolic
regression tool to perform Symbolic Residual Realignment (SR^2). This final
step, analogous to a physicist's perturbation analysis, reconciles the
theoretical model with empirical data. To support this research, we introduce
PhysSymbol, a new 5,000-instance multimodal corpus. Experiments show that
VIPER-R1 consistently outperforms state-of-the-art VLM baselines in accuracy
and interpretability, enabling more precise discovery of physical laws. Project
page: https://jiaaqiliu.github.io/VIPER-R1/