EMMA: Extração de Múltiplos Parâmetros Físicos de Dados Multimodais

Resumo

Apresentamos o EMMA, uma estrutura multimodal baseada em física que recupera todos os parâmetros dinâmicos identificáveis de um sistema diretamente a partir de observações brutas de séries temporais baseadas em vídeo, áudio e imagens. Diferentemente de abordagens anteriores focadas apenas em vídeo, que enfrentam dificuldades com estados ocluídos, entradas de atuação ocultas ou suposições sobre condições iniciais e referenciais conhecidos, o EMMA realiza inferência conjunta de parâmetros explícitos, componentes dinâmicos implícitos e invariantes de calibração em um modelo unificado de tempo contínuo. O EMMA utiliza uma rede Liquid Time-Constant (LTC) para aprender dinâmicas latentes a partir de modalidades heterogêneas, enquanto uma perda com restrições físicas impõe consistência com as equações diferenciais governantes. Um pipeline unificado de recursos permite o alinhamento consistente entre trajetórias de vídeo, assinaturas acústicas e medições derivadas de gráficos, possibilitando que o EMMA estime parâmetros sob dinâmicas forçadas, implícitas e multivariadas, sem a necessidade de máscaras de segmentação, renderização diferenciável ou sensores especializados. Em mais de 100 cenários, incluindo cinco referenciais dinâmicos padrão (75 vídeos Delfys), sistemas reais de rover e quadrotor com entradas ocultas, e estudos de caso simulação-gráfico abrangendo sistemas biológicos e caóticos, o EMMA fornece uma recuperação robusta de múltiplos parâmetros e supera significativamente as bases de referência existentes de modalidade única e descoberta de equações. Nossos resultados estabelecem o EMMA como uma solução geral e escalável para extração de modelos consistentes com a física a partir de dados multimodais oportunistas. O código e os dados estão disponíveis em: https://github.com/ImpactLabASU/EMMA-CVPR2026

English

We introduce EMMA, a physics-informed multimodal framework that recovers all identifiable dynamical parameters of a system directly from raw video, audio, and image-based time-series observations. Unlike prior video-only approaches that struggle with occluded states, hidden actuation inputs, or assumptions about known initial conditions and coordinate frames, EMMA performs joint inference of explicit parameters, implicit dynamical components, and calibration invariants within a unified continuous-time model. EMMA leverages a Liquid Time-Constant (LTC) network to learn latent dynamics from heterogeneous modalities while a physics-constrained loss enforces consistency with the governing differential equations. A unified feature pipeline enables consistent alignment across video trajectories, acoustic signatures, and chart-derived measurements, allowing EMMA to estimate parameters under forced, implicit, and multivariate dynamics without requiring segmentation masks, differentiable rendering, or specialized sensors. Across 100+ scenarios including five standard dynamical benchmarks (75 Delfys videos), real-world rover and quadrotor systems with hidden inputs, and simulation-chart case studies spanning biological and chaotic systems, EMMA delivers robust multi-parameter recovery and significantly outperforms existing single-modality and equation-discovery baselines. Our results establish EMMA as a general, scalable solution for physics-consistent model extraction from opportunistic multimodal data. Code and data are available at: https://github.com/ImpactLabASU/EMMA-CVPR2026