EMMA: Extractie van meerdere fysieke parameters uit multimodale data

Samenvatting

We introduceren EMMA, een fysica-geïnformeerd multimodaal raamwerk dat alle identificeerbare dynamische parameters van een systeem direct reconstructeert uit ruwe video-, audio- en beeldgebaseerde tijdreeksobservaties. In tegenstelling tot eerdere video-only benaderingen die worstelen met geoccludeerde toestanden, verborgen actuatie-ingangen of aannames over bekende begincondities en coördinatenstelsels, voert EMMA een gezamenlijke inferentie uit van expliciete parameters, impliciete dynamische componenten en kalibratie-invarianten binnen een uniform continu-tijdsmodel. EMMA maakt gebruik van een Liquid Time-Constant (LTC) netwerk om latente dynamica te leren uit heterogene modaliteiten, terwijl een fysica-beperkte verliesfunctie consistentie met de bepalende differentiaalvergelijkingen afdwingt. Een uniforme kenmerkpijplijn zorgt voor consistente uitlijning van videotrajecten, akoestische kenmerken en grafiek-afgeleide metingen, waardoor EMMA parameters kan schatten onder gedwongen, impliciete en multivariate dynamica zonder segmentatiemaskers, differentieerbare rendering of gespecialiseerde sensoren. Over meer dan 100 scenario's, waaronder vijf standaard dynamische benchmarks (75 Delfys-video's), realistische rover- en quadrotorsystemen met verborgen ingangen, en simulatie-grafiek case studies van biologische en chaotische systemen, levert EMMA robuust multi-parameter herstel en presteert het significant beter dan bestaande enkel-modale en vergelijkingsontdekkingsbaselines. Onze resultaten tonen aan dat EMMA een algemene, schaalbare oplossing is voor fysica-consistente modelextractie uit opportunistische multimodale data. Code en data zijn beschikbaar op: https://github.com/ImpactLabASU/EMMA-CVPR2026

English

We introduce EMMA, a physics-informed multimodal framework that recovers all identifiable dynamical parameters of a system directly from raw video, audio, and image-based time-series observations. Unlike prior video-only approaches that struggle with occluded states, hidden actuation inputs, or assumptions about known initial conditions and coordinate frames, EMMA performs joint inference of explicit parameters, implicit dynamical components, and calibration invariants within a unified continuous-time model. EMMA leverages a Liquid Time-Constant (LTC) network to learn latent dynamics from heterogeneous modalities while a physics-constrained loss enforces consistency with the governing differential equations. A unified feature pipeline enables consistent alignment across video trajectories, acoustic signatures, and chart-derived measurements, allowing EMMA to estimate parameters under forced, implicit, and multivariate dynamics without requiring segmentation masks, differentiable rendering, or specialized sensors. Across 100+ scenarios including five standard dynamical benchmarks (75 Delfys videos), real-world rover and quadrotor systems with hidden inputs, and simulation-chart case studies spanning biological and chaotic systems, EMMA delivers robust multi-parameter recovery and significantly outperforms existing single-modality and equation-discovery baselines. Our results establish EMMA as a general, scalable solution for physics-consistent model extraction from opportunistic multimodal data. Code and data are available at: https://github.com/ImpactLabASU/EMMA-CVPR2026