Do Estático ao Dinâmico: Edição de Imagens com Consciência Física através de Priores de Transição Latente

Resumo

A edição de imagens baseada em instruções alcançou sucesso notável no alinhamento semântico, porém os modelos mais avançados frequentemente falham em produzir resultados fisicamente plausíveis quando a edição envolve dinâmicas causais complexas, como refração ou deformação de materiais. Atribuímos esta limitação ao paradigma dominante que trata a edição como um mapeamento discreto entre pares de imagens, o que fornece apenas condições de contorno e deixa as dinâmicas de transição subespecificadas. Para resolver isso, reformulamos a edição com consciência física como transições preditivas de estado físico e introduzimos o PhysicTran38K, um conjunto de dados em larga escala baseado em vídeo contendo 38 mil trajetórias de transição em cinco domínios físicos, construído através de um pipeline de anotação em duas etapas com filtragem e restrições conscientes. Com base nesta supervisão, propomos o PhysicEdit, uma estrutura de trabalho de ponta a ponta equipada com um mecanismo de duplo pensamento textual-visual. Ele combina um modelo Qwen2.5-VL congelado para raciocínio fisicamente fundamentado com consultas de transição aprendíveis que fornecem orientação visual adaptável ao timestep para um backbone de difusão. Experimentos mostram que o PhysicEdit supera o Qwen-Image-Edit em 5,9% no realismo físico e 10,1% na edição fundamentada em conhecimento, estabelecendo um novo estado da arte para métodos de código aberto, enquanto mantém competitividade com os principais modelos proprietários.

English

Instruction-based image editing has achieved remarkable success in semantic alignment, yet state-of-the-art models frequently fail to render physically plausible results when editing involves complex causal dynamics, such as refraction or material deformation. We attribute this limitation to the dominant paradigm that treats editing as a discrete mapping between image pairs, which provides only boundary conditions and leaves transition dynamics underspecified. To address this, we reformulate physics-aware editing as predictive physical state transitions and introduce PhysicTran38K, a large-scale video-based dataset comprising 38K transition trajectories across five physical domains, constructed via a two-stage filtering and constraint-aware annotation pipeline. Building on this supervision, we propose PhysicEdit, an end-to-end framework equipped with a textual-visual dual-thinking mechanism. It combines a frozen Qwen2.5-VL for physically grounded reasoning with learnable transition queries that provide timestep-adaptive visual guidance to a diffusion backbone. Experiments show that PhysicEdit improves over Qwen-Image-Edit by 5.9% in physical realism and 10.1% in knowledge-grounded editing, setting a new state-of-the-art for open-source methods, while remaining competitive with leading proprietary models.

Do Estático ao Dinâmico: Edição de Imagens com Consciência Física através de Priores de Transição Latente

From Statics to Dynamics: Physics-Aware Image Editing with Latent Transition Priors

Resumo

Support