Phantom: Physik-infundierte Videogenerierung durch gemeinsame Modellierung visueller und latenter physikalischer Dynamiken

Zusammenfassung

Jüngste Fortschritte in der generativen Videomodellierung, angetrieben durch umfangreiche Datensätze und leistungsstarke Architekturen, haben eine bemerkenswerte visuelle Realitätstreue erzielt. Jedoch deuten neuere Erkenntnisse darauf hin, dass das bloße Skalieren von Daten und Modellgröße diesen Systemen kein Verständnis der zugrundeliegenden physikalischen Gesetze verleiht, die die Dynamik der realen Welt bestimmen. Bestehende Ansätze erfassen oder erzwingen oft keine solche physikalische Konsistenz, was zu unrealistischen Bewegungen und Dynamiken führt. In unserer Arbeit untersuchen wir, ob die Integration der Inferenz latenter physikalischer Eigenschaften direkt in den Videogenerierungsprozess Modelle in die Lage versetzen kann, physikalisch plausible Videos zu erzeugen. Zu diesem Zweck schlagen wir Phantom vor, ein physik-infundiertes Videogenerierungsmodell, das visuelle Inhalte und latente physikalische Dynamik gemeinsam modelliert. Auf der Grundlage beobachteter Videobilder und abgeleiteter physikalischer Zustände sagt Phantom gemeinsam die latente physikalische Dynamik vorher und generiert zukünftige Videobilder. Phantom nutzt eine physik-sensitive Videorepräsentation, die als abstrakte, aber informative Einbettung der zugrundeliegenden Physik dient und die gemeinsame Vorhersage der physikalischen Dynamik zusammen mit dem Videoinhalt erleichtert, ohne eine explizite Spezifikation eines komplexen Satzes physikalischer Dynamiken und Eigenschaften zu erfordern. Durch die direkte Integration der Inferenz der physik-sensitiven Videorepräsentation in den Videogenerierungsprozess erzeugt Phantom Videosequenzen, die sowohl visuell realistisch als auch physikalisch konsistent sind. Quantitative und qualitative Ergebnisse sowohl auf standardisierten Videogenerierungs- als auch physik-sensitiven Benchmarks zeigen, dass Phantom bestehende Methoden nicht nur in Bezug auf die Einhaltung physikalischer Dynamik übertrifft, sondern auch eine wettbewerbsfähige perzeptive Qualität liefert.

English

Recent advances in generative video modeling, driven by large-scale datasets and powerful architectures, have yielded remarkable visual realism. However, emerging evidence suggests that simply scaling data and model size does not endow these systems with an understanding of the underlying physical laws that govern real-world dynamics. Existing approaches often fail to capture or enforce such physical consistency, resulting in unrealistic motion and dynamics. In his work, we investigate whether integrating the inference of latent physical properties directly into the video generation process can equip models with the ability to produce physically plausible videos. To this end, we propose Phantom, a Physics-Infused Video Generation model that jointly models the visual content and latent physical dynamics. Conditioned on observed video frames and inferred physical states, Phantom jointly predicts latent physical dynamics and generates future video frames. Phantom leverages a physics-aware video representation that serves as an abstract yet informaive embedding of the underlying physics, facilitating the joint prediction of physical dynamics alongside video content without requiring an explicit specification of a complex set of physical dynamics and properties. By integrating the inference of physical-aware video representation directly into the video generation process, Phantom produces video sequences that are both visually realistic and physically consistent. Quantitative and qualitative results on both standard video generation and physics-aware benchmarks demonstrate that Phantom not only outperforms existing methods in terms of adherence to physical dynamics but also delivers competitive perceptual fidelity.

Phantom: Physik-infundierte Videogenerierung durch gemeinsame Modellierung visueller und latenter physikalischer Dynamiken

Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics

Zusammenfassung

Support