De la Estática a la Dinámica: Edición de Imágenes con Conciencia Física mediante Priores de Transición Latente

Resumen

La edición de imágenes basada en instrucciones ha logrado un éxito notable en la alineación semántica; sin embargo, los modelos más avanzados a menudo fallan al generar resultados físicamente plausibles cuando la edición implica dinámicas causales complejas, como la refracción o la deformación de materiales. Atribuimos esta limitación al paradigma dominante que trata la edición como un mapeo discreto entre pares de imágenes, el cual proporciona solo condiciones de contorno y deja la dinámica de transición subespecificada. Para abordar esto, reformulamos la edición consciente de la física como transiciones predictivas de estado físico e introducimos PhysicTran38K, un conjunto de datos a gran escala basado en vídeo que comprende 38.000 trayectorias de transición en cinco dominios físicos, construido mediante un pipeline de dos etapas de filtrado y anotación con conocimiento de restricciones. Sobre esta base de supervisión, proponemos PhysicEdit, un framework integral equipado con un mecanismo de pensamiento dual texto-visual. Combina un modelo Qwen2.5-VL congelado para el razonamiento físicamente fundamentado con consultas de transición entrenables que proporcionan guía visual adaptable por paso de tiempo a un modelo de difusión subyacente. Los experimentos muestran que PhysicEdit mejora a Qwen-Image-Edit en un 5.9% en realismo físico y un 10.1% en edición basada en conocimiento, estableciendo un nuevo estado del arte para los métodos de código abierto, mientras se mantiene competitivo con los modelos propietarios líderes.

English

Instruction-based image editing has achieved remarkable success in semantic alignment, yet state-of-the-art models frequently fail to render physically plausible results when editing involves complex causal dynamics, such as refraction or material deformation. We attribute this limitation to the dominant paradigm that treats editing as a discrete mapping between image pairs, which provides only boundary conditions and leaves transition dynamics underspecified. To address this, we reformulate physics-aware editing as predictive physical state transitions and introduce PhysicTran38K, a large-scale video-based dataset comprising 38K transition trajectories across five physical domains, constructed via a two-stage filtering and constraint-aware annotation pipeline. Building on this supervision, we propose PhysicEdit, an end-to-end framework equipped with a textual-visual dual-thinking mechanism. It combines a frozen Qwen2.5-VL for physically grounded reasoning with learnable transition queries that provide timestep-adaptive visual guidance to a diffusion backbone. Experiments show that PhysicEdit improves over Qwen-Image-Edit by 5.9% in physical realism and 10.1% in knowledge-grounded editing, setting a new state-of-the-art for open-source methods, while remaining competitive with leading proprietary models.

De la Estática a la Dinámica: Edición de Imágenes con Conciencia Física mediante Priores de Transición Latente

From Statics to Dynamics: Physics-Aware Image Editing with Latent Transition Priors

Resumen

Support