Van statica naar dynamica: Fysica-bewust beeldbewerken met latente transitieprioriteiten

Samenvatting

Op instructie gebaseerde beeldbewerking heeft opmerkelijke successen geboekt in semantische uitlijning, maar state-of-the-art modellen slagen er vaak niet in fysiek plausibele resultaten te genereren wanneer de bewerking complexe causale dynamiek omvat, zoals breking of materiaaldeformatie. Wij schrijven deze beperking toe aan het dominante paradigma dat bewerking behandelt als een discrete mapping tussen beeldparen, wat slechts randvoorwaarden biedt en de overgangsdynamiek ondergespecificeerd laat. Om dit aan te pakken, herformuleren we fysica-bewuste beeldbewerking als voorspellende fysieke toestandsovergangen en introduceren we PhysicTran38K, een grootschalige op video gebaseerde dataset met 38.000 overgangstrajecten verspreid over vijf fysieke domeinen, geconstrueerd via een pijplijn voor tweefasenfiltering en constraint-aware annotatie. Gebaseerd op deze supervisie stellen we PhysicEdit voor, een end-to-end raamwerk uitgerust met een tekstueel-visueel dual-denkmecanisme. Het combineert een bevroren Qwen2.5-VL voor fysiek onderbouwde redenering met leerbare overgangsqueries die tijdsstap-adaptieve visuele begeleiding bieden aan een diffusie-backbone. Experimenten tonen aan dat PhysicEdit Qwen-Image-Edit verbetert met 5,9% in fysieke realisme en 10,1% in kennis-gegronde bewerking, wat een nieuwe state-of-the-art neerzet voor open-source methoden, terwijl het competitief blijft met toonaangevende propriëtaire modellen.

English

Instruction-based image editing has achieved remarkable success in semantic alignment, yet state-of-the-art models frequently fail to render physically plausible results when editing involves complex causal dynamics, such as refraction or material deformation. We attribute this limitation to the dominant paradigm that treats editing as a discrete mapping between image pairs, which provides only boundary conditions and leaves transition dynamics underspecified. To address this, we reformulate physics-aware editing as predictive physical state transitions and introduce PhysicTran38K, a large-scale video-based dataset comprising 38K transition trajectories across five physical domains, constructed via a two-stage filtering and constraint-aware annotation pipeline. Building on this supervision, we propose PhysicEdit, an end-to-end framework equipped with a textual-visual dual-thinking mechanism. It combines a frozen Qwen2.5-VL for physically grounded reasoning with learnable transition queries that provide timestep-adaptive visual guidance to a diffusion backbone. Experiments show that PhysicEdit improves over Qwen-Image-Edit by 5.9% in physical realism and 10.1% in knowledge-grounded editing, setting a new state-of-the-art for open-source methods, while remaining competitive with leading proprietary models.

Van statica naar dynamica: Fysica-bewust beeldbewerken met latente transitieprioriteiten

From Statics to Dynamics: Physics-Aware Image Editing with Latent Transition Priors

Samenvatting

Support