EMMA: Extraktion mehrerer physikalischer Parameter aus multimodalen Daten

Zusammenfassung

Wir stellen EMMA vor, ein physik-informiertes multimodales Framework, das alle identifizierbaren dynamischen Parameter eines Systems direkt aus rohen Video-, Audio- und bildbasierten Zeitreihenbeobachtungen rekonstruiert. Im Gegensatz zu früheren rein videobasierten Ansätzen, die mit verdeckten Zuständen, verborgenen Aktuatoreingaben oder Annahmen über bekannte Anfangsbedingungen und Koordinatensysteme kämpfen, führt EMMA eine gemeinsame Inferenz expliziter Parameter, impliziter dynamischer Komponenten und Kalibrierungsinvarianzen innerhalb eines einheitlichen kontinuierlichen Zeitmodells durch. EMMA nutzt ein Liquid Time-Constant (LTC)-Netzwerk, um latente Dynamiken aus heterogenen Modalitäten zu lernen, während ein physik-constrainierter Verlust die Konsistenz mit den zugrundeliegenden Differentialgleichungen erzwingt. Eine einheitliche Feature-Pipeline ermöglicht eine konsistente Ausrichtung über Videotrajektorien, akustische Signaturen und diagrammbasierte Messungen hinweg, sodass EMMA Parameter unter erzwungenen, impliziten und multivariaten Dynamiken schätzen kann, ohne Segmentierungsmasken, differenzierbares Rendering oder spezialisierte Sensoren zu benötigen. Über mehr als 100 Szenarien hinweg, darunter fünf standardmäßige dynamische Benchmarks (75 Delfys-Videos), reale Rover- und Quadrotorsysteme mit verborgenen Eingaben sowie Simulations-Diagramm-Fallstudien zu biologischen und chaotischen Systemen, liefert EMMA eine robuste Multi-Parameter-Rekonstruktion und übertrifft bestehende Einzelmodalitäts- und Gleichungsentdeckungs-Baselines deutlich. Unsere Ergebnisse etablieren EMMA als eine allgemeine, skalierbare Lösung für physik-konsistente Modellextraktion aus opportunistischen multimodalen Daten. Code und Daten sind verfügbar unter: https://github.com/ImpactLabASU/EMMA-CVPR2026

English

We introduce EMMA, a physics-informed multimodal framework that recovers all identifiable dynamical parameters of a system directly from raw video, audio, and image-based time-series observations. Unlike prior video-only approaches that struggle with occluded states, hidden actuation inputs, or assumptions about known initial conditions and coordinate frames, EMMA performs joint inference of explicit parameters, implicit dynamical components, and calibration invariants within a unified continuous-time model. EMMA leverages a Liquid Time-Constant (LTC) network to learn latent dynamics from heterogeneous modalities while a physics-constrained loss enforces consistency with the governing differential equations. A unified feature pipeline enables consistent alignment across video trajectories, acoustic signatures, and chart-derived measurements, allowing EMMA to estimate parameters under forced, implicit, and multivariate dynamics without requiring segmentation masks, differentiable rendering, or specialized sensors. Across 100+ scenarios including five standard dynamical benchmarks (75 Delfys videos), real-world rover and quadrotor systems with hidden inputs, and simulation-chart case studies spanning biological and chaotic systems, EMMA delivers robust multi-parameter recovery and significantly outperforms existing single-modality and equation-discovery baselines. Our results establish EMMA as a general, scalable solution for physics-consistent model extraction from opportunistic multimodal data. Code and data are available at: https://github.com/ImpactLabASU/EMMA-CVPR2026