Von der Statik zur Dynamik: Physikbewusste Bildbearbeitung mit latenten Übergangsprioritäten

Zusammenfassung

Instruktionsbasierte Bildbearbeitung hat bemerkenswerte Erfolge bei der semantischen Ausrichtung erzielt, doch aktuelle State-of-the-Art-Modelle scheitern häufig an der Erzeugung physikalisch plausibler Ergebnisse, wenn die Bearbeitung komplexe kausale Dynamiken wie Lichtbrechung oder Materialverformung beinhaltet. Wir führen diese Einschränkung auf das vorherrschende Paradigma zurück, das Bearbeitung als diskrete Abbildung zwischen Bildpaaren behandelt. Dieser Ansatz liefert lediglich Randbedingungen und lässt die Übergangsdynamik unterbestimmt. Um dieses Problem zu adressieren, formulieren wir physikbewusste Bearbeitung als prädiktive physikalische Zustandsübergänge neu und führen PhysicTran38K ein – einen groß angelegten, videobasierten Datensatz mit 38.000 Übergangspfaden über fünf physikalische Domänen hinweg, der durch einen zweistufigen Filter- und beschränkungsbewussten Annotationsprozess erstellt wurde. Aufbauend auf dieser Grundlage präsentieren wir PhysicEdit, ein End-to-End-Framework mit einem textuell-visuellen Dual-Thinking-Mechanismus. Es kombiniert ein eingefrorenes Qwen2.5-VL für physikalisch fundiertes Reasoning mit erlernbaren Übergangsabfragen, die einem Diffusion-Backbone zeitschrittadaptive visuelle Führung bieten. Experimente zeigen, dass PhysicEdit Qwen-Image-Edit bei physikalischer Realitätsnähe um 5,9 % und im wissensbasierten Editieren um 10,1 % übertrifft und damit einen neuen State-of-the-Art für Open-Source-Methoden setzt, während es mit führenden proprietären Modellen wettbewerbsfähig bleibt.

English

Instruction-based image editing has achieved remarkable success in semantic alignment, yet state-of-the-art models frequently fail to render physically plausible results when editing involves complex causal dynamics, such as refraction or material deformation. We attribute this limitation to the dominant paradigm that treats editing as a discrete mapping between image pairs, which provides only boundary conditions and leaves transition dynamics underspecified. To address this, we reformulate physics-aware editing as predictive physical state transitions and introduce PhysicTran38K, a large-scale video-based dataset comprising 38K transition trajectories across five physical domains, constructed via a two-stage filtering and constraint-aware annotation pipeline. Building on this supervision, we propose PhysicEdit, an end-to-end framework equipped with a textual-visual dual-thinking mechanism. It combines a frozen Qwen2.5-VL for physically grounded reasoning with learnable transition queries that provide timestep-adaptive visual guidance to a diffusion backbone. Experiments show that PhysicEdit improves over Qwen-Image-Edit by 5.9% in physical realism and 10.1% in knowledge-grounded editing, setting a new state-of-the-art for open-source methods, while remaining competitive with leading proprietary models.

Von der Statik zur Dynamik: Physikbewusste Bildbearbeitung mit latenten Übergangsprioritäten

From Statics to Dynamics: Physics-Aware Image Editing with Latent Transition Priors

Zusammenfassung

Support