De la statique à la dynamique : Édition d'images guidée par la physique avec a priori de transition latente

Résumé

L'édition d'images basée sur des instructions a obtenu un succès remarquable en termes d'alignement sémantique. Cependant, les modèles les plus avancés échouent souvent à produire des résultats physiquement plausibles lorsque l'édition implique des dynamiques causales complexes, telles que la réfraction ou la déformation des matériaux. Nous attribuons cette limitation au paradigme dominant qui traite l'édition comme une correspondance discrète entre des paires d'images, ce qui ne fournit que des conditions aux limites et laisse la dynamique de transition sous-spécifiée. Pour y remédier, nous reformulons l'édition prenant en compte la physique comme des transitions prédictives d'états physiques et introduisons PhysicTran38K, un jeu de données vidéo à grande échelle comprenant 38 000 trajectoires de transition couvrant cinq domaines physiques, construit via un pipeline d'annotation en deux étapes avec filtrage et prise en compte des contraintes. S'appuyant sur cette supervision, nous proposons PhysicEdit, un cadre de bout en bout équipé d'un mécanisme de double réflexion textuel-visuel. Il combine un modèle Qwen2.5-VL figé pour le raisonnement physiquement fondé avec des requêtes de transition apprenables qui fournissent un guidage visuel adaptatif aux pas de temps à un modèle de diffusion principal. Les expériences montrent que PhysicEdit améliore Qwen-Image-Edit de 5,9 % en réalisme physique et de 10,1 % en édition fondée sur les connaissances, établissant un nouvel état de l'art pour les méthodes open source, tout en restant compétitif avec les principaux modèles propriétaires.

English

Instruction-based image editing has achieved remarkable success in semantic alignment, yet state-of-the-art models frequently fail to render physically plausible results when editing involves complex causal dynamics, such as refraction or material deformation. We attribute this limitation to the dominant paradigm that treats editing as a discrete mapping between image pairs, which provides only boundary conditions and leaves transition dynamics underspecified. To address this, we reformulate physics-aware editing as predictive physical state transitions and introduce PhysicTran38K, a large-scale video-based dataset comprising 38K transition trajectories across five physical domains, constructed via a two-stage filtering and constraint-aware annotation pipeline. Building on this supervision, we propose PhysicEdit, an end-to-end framework equipped with a textual-visual dual-thinking mechanism. It combines a frozen Qwen2.5-VL for physically grounded reasoning with learnable transition queries that provide timestep-adaptive visual guidance to a diffusion backbone. Experiments show that PhysicEdit improves over Qwen-Image-Edit by 5.9% in physical realism and 10.1% in knowledge-grounded editing, setting a new state-of-the-art for open-source methods, while remaining competitive with leading proprietary models.

De la statique à la dynamique : Édition d'images guidée par la physique avec a priori de transition latente

From Statics to Dynamics: Physics-Aware Image Editing with Latent Transition Priors

Résumé

Support