EMMA: Extracción de múltiples parámetros físicos a partir de datos multimodales

Resumen

Presentamos EMMA, un marco multimodal informado por la física que recupera todos los parámetros dinámicos identificables de un sistema directamente a partir de observaciones en bruto de series temporales basadas en video, audio e imágenes. A diferencia de enfoques previos basados únicamente en video, que presentan dificultades con estados ocluidos, entradas de actuación ocultas o suposiciones sobre condiciones iniciales y marcos de coordenadas conocidos, EMMA realiza una inferencia conjunta de parámetros explícitos, componentes dinámicos implícitos e invariantes de calibración dentro de un modelo unificado de tiempo continuo. EMMA aprovecha una red de Constante de Tiempo Líquida (LTC) para aprender dinámicas latentes a partir de modalidades heterogéneas, mientras que una pérdida con restricciones físicas impone consistencia con las ecuaciones diferenciales rectoras. Un canal de características unificado permite una alineación consistente entre trayectorias de video, firmas acústicas y mediciones derivadas de gráficos, lo que permite a EMMA estimar parámetros bajo dinámicas forzadas, implícitas y multivariantes, sin requerir máscaras de segmentación, renderizado diferenciable ni sensores especializados. En más de 100 escenarios, que incluyen cinco puntos de referencia dinámicos estándar (75 videos de Delfys), sistemas reales de rover y cuadricóptero con entradas ocultas, y estudios de caso de simulación con gráficos que abarcan sistemas biológicos y caóticos, EMMA ofrece una recuperación robusta de múltiples parámetros y supera significativamente a las líneas base existentes de modalidad única y descubrimiento de ecuaciones. Nuestros resultados establecen a EMMA como una solución general y escalable para la extracción de modelos consistentes con la física a partir de datos multimodales oportunistas. El código y los datos están disponibles en: https://github.com/ImpactLabASU/EMMA-CVPR2026

English

We introduce EMMA, a physics-informed multimodal framework that recovers all identifiable dynamical parameters of a system directly from raw video, audio, and image-based time-series observations. Unlike prior video-only approaches that struggle with occluded states, hidden actuation inputs, or assumptions about known initial conditions and coordinate frames, EMMA performs joint inference of explicit parameters, implicit dynamical components, and calibration invariants within a unified continuous-time model. EMMA leverages a Liquid Time-Constant (LTC) network to learn latent dynamics from heterogeneous modalities while a physics-constrained loss enforces consistency with the governing differential equations. A unified feature pipeline enables consistent alignment across video trajectories, acoustic signatures, and chart-derived measurements, allowing EMMA to estimate parameters under forced, implicit, and multivariate dynamics without requiring segmentation masks, differentiable rendering, or specialized sensors. Across 100+ scenarios including five standard dynamical benchmarks (75 Delfys videos), real-world rover and quadrotor systems with hidden inputs, and simulation-chart case studies spanning biological and chaotic systems, EMMA delivers robust multi-parameter recovery and significantly outperforms existing single-modality and equation-discovery baselines. Our results establish EMMA as a general, scalable solution for physics-consistent model extraction from opportunistic multimodal data. Code and data are available at: https://github.com/ImpactLabASU/EMMA-CVPR2026