Da Statico a Dinamico: Modifica di Immagini Fisicamente Consapevole con Transizioni Latenti a Priori

Abstract

L'editing di immagini basato su istruzioni ha ottenuto un successo notevole nell'allineamento semantico, tuttavia i modelli all'avanguardia spesso falliscono nel produrre risultati fisicamente plausibili quando le modifiche coinvolgono dinamiche causali complesse, come la rifrazione o la deformazione dei materiali. Attribuiamo questa limitazione al paradigma dominante che tratta l'editing come una mappatura discreta tra coppie di immagini, la quale fornisce solo condizioni al contorno e lascia le dinamiche di transizione sottospecificate. Per affrontare questo problema, riformuliamo l'editing consapevole della fisica come transizioni predittive di stati fisici e introduciamo PhysicTran38K, un dataset su larga scala basato su video che comprende 38.000 traiettorie di transizione attraverso cinque domini fisici, costruito mediante una pipeline di annotazione in due fasi con filtraggio e consapevole dei vincoli. Basandoci su questa supervisione, proponiamo PhysicEdit, un framework end-to-end dotato di un meccanismo di pensiero duale testuale-visivo. Questo combina un modello Qwen2.5-VL congelato per il ragionamento fisicamente fondato con query di transizione apprendibili che forniscono una guida visiva adattiva al timestep a un backbone di diffusione. Gli esperimenti mostrano che PhysicEdit migliora Qwen-Image-Edit del 5.9% nel realismo fisico e del 10.1% nell'editing basato sulla conoscenza, stabilendo un nuovo stato dell'arte per i metodi open-source, pur rimanendo competitivo con i principali modelli proprietari.

English

Instruction-based image editing has achieved remarkable success in semantic alignment, yet state-of-the-art models frequently fail to render physically plausible results when editing involves complex causal dynamics, such as refraction or material deformation. We attribute this limitation to the dominant paradigm that treats editing as a discrete mapping between image pairs, which provides only boundary conditions and leaves transition dynamics underspecified. To address this, we reformulate physics-aware editing as predictive physical state transitions and introduce PhysicTran38K, a large-scale video-based dataset comprising 38K transition trajectories across five physical domains, constructed via a two-stage filtering and constraint-aware annotation pipeline. Building on this supervision, we propose PhysicEdit, an end-to-end framework equipped with a textual-visual dual-thinking mechanism. It combines a frozen Qwen2.5-VL for physically grounded reasoning with learnable transition queries that provide timestep-adaptive visual guidance to a diffusion backbone. Experiments show that PhysicEdit improves over Qwen-Image-Edit by 5.9% in physical realism and 10.1% in knowledge-grounded editing, setting a new state-of-the-art for open-source methods, while remaining competitive with leading proprietary models.

Da Statico a Dinamico: Modifica di Immagini Fisicamente Consapevole con Transizioni Latenti a Priori

From Statics to Dynamics: Physics-Aware Image Editing with Latent Transition Priors

Abstract

Support