EMMA : Extraction de multiples paramètres physiques à partir de données multimodales

Résumé

Nous présentons EMMA, un cadre multimodal informé par la physique qui retrouve tous les paramètres dynamiques identifiables d'un système directement à partir d'observations brutes de séries temporelles vidéo, audio et issues d'images. Contrairement aux approches antérieures basées uniquement sur la vidéo, qui peinent face aux états occultés, aux entrées d'actionnement cachées ou aux hypothèses sur les conditions initiales et les repères de coordonnées, EMMA effectue une inférence conjointe des paramètres explicites, des composantes dynamiques implicites et des invariants de calibration au sein d'un modèle unifié en temps continu. EMMA exploite un réseau à constante de temps liquide (LTC) pour apprendre les dynamiques latentes à partir de modalités hétérogènes, tandis qu'une perte contrainte par la physique assure la cohérence avec les équations différentielles régissantes. Un pipeline de caractéristiques unifié permet un alignement cohérent entre les trajectoires vidéo, les signatures acoustiques et les mesures extraites de graphiques, permettant à EMMA d'estimer les paramètres sous des dynamiques forcées, implicites et multivariées, sans nécessiter de masques de segmentation, de rendu différenciable ni de capteurs spécialisés. À travers plus de 100 scénarios, incluant cinq bancs d'essai dynamiques standard (75 vidéos Delfys), des systèmes réels de rover et de quadrirotor avec entrées cachées, ainsi que des études de cas de simulation-chart couvrant des systèmes biologiques et chaotiques, EMMA assure une récupération robuste de multiples paramètres et surpasse significativement les bases de référence unimodales et de découverte d'équations existantes. Nos résultats établissent EMMA comme une solution générale et évolutive pour l'extraction de modèles cohérents avec la physique à partir de données multimodales opportunistes. Le code et les données sont disponibles à l'adresse : https://github.com/ImpactLabASU/EMMA-CVPR2026

English

We introduce EMMA, a physics-informed multimodal framework that recovers all identifiable dynamical parameters of a system directly from raw video, audio, and image-based time-series observations. Unlike prior video-only approaches that struggle with occluded states, hidden actuation inputs, or assumptions about known initial conditions and coordinate frames, EMMA performs joint inference of explicit parameters, implicit dynamical components, and calibration invariants within a unified continuous-time model. EMMA leverages a Liquid Time-Constant (LTC) network to learn latent dynamics from heterogeneous modalities while a physics-constrained loss enforces consistency with the governing differential equations. A unified feature pipeline enables consistent alignment across video trajectories, acoustic signatures, and chart-derived measurements, allowing EMMA to estimate parameters under forced, implicit, and multivariate dynamics without requiring segmentation masks, differentiable rendering, or specialized sensors. Across 100+ scenarios including five standard dynamical benchmarks (75 Delfys videos), real-world rover and quadrotor systems with hidden inputs, and simulation-chart case studies spanning biological and chaotic systems, EMMA delivers robust multi-parameter recovery and significantly outperforms existing single-modality and equation-discovery baselines. Our results establish EMMA as a general, scalable solution for physics-consistent model extraction from opportunistic multimodal data. Code and data are available at: https://github.com/ImpactLabASU/EMMA-CVPR2026