От статики к динамике: физически обоснованное редактирование изображений с использованием априорных латентных переходов

Аннотация

Редактирование изображений на основе инструкций достигло значительных успехов в семантическом согласовании, однако современные модели часто не способны воспроизводить физически правдоподобные результаты, когда редактирование затрагивает сложные причинно-следственные динамики, такие как преломление или деформация материалов. Мы объясняем это ограничение доминирующей парадигмой, которая трактует редактирование как дискретное отображение между парами изображений, что обеспечивает лишь граничные условия и оставляет переходные динамики неопределенными. Для решения этой проблемы мы переформулируем физически осознанное редактирование как предсказание переходов физических состояний и представляем PhysicTran38K — масштабный видеоданных набор, содержащий 38 тысяч траекторий переходов в пяти физических доменах, созданный с помощью двухэтапного конвейера фильтрации и аннотирования с учетом ограничений. На основе этой разметки мы предлагаем PhysicEdit — сквозную архитектуру, оснащенную механизмом текстуально-визуального двойного мышления. Она объединяет замороженный Qwen2.5-VL для физически обоснованных рассуждений с обучаемыми переходными запросами, которые предоставляют адаптивное к временным шагам визуальное руководство для диффузионной основы. Эксперименты показывают, что PhysicEdit превосходит Qwen-Image-Edit на 5.9% по показателю физического реализма и на 10.1% по обоснованному знаниями редактированию, устанавливая новый рекорд для открытых методов, оставаясь при этом конкурентоспособным с ведущими проприетарными моделями.

English

Instruction-based image editing has achieved remarkable success in semantic alignment, yet state-of-the-art models frequently fail to render physically plausible results when editing involves complex causal dynamics, such as refraction or material deformation. We attribute this limitation to the dominant paradigm that treats editing as a discrete mapping between image pairs, which provides only boundary conditions and leaves transition dynamics underspecified. To address this, we reformulate physics-aware editing as predictive physical state transitions and introduce PhysicTran38K, a large-scale video-based dataset comprising 38K transition trajectories across five physical domains, constructed via a two-stage filtering and constraint-aware annotation pipeline. Building on this supervision, we propose PhysicEdit, an end-to-end framework equipped with a textual-visual dual-thinking mechanism. It combines a frozen Qwen2.5-VL for physically grounded reasoning with learnable transition queries that provide timestep-adaptive visual guidance to a diffusion backbone. Experiments show that PhysicEdit improves over Qwen-Image-Edit by 5.9% in physical realism and 10.1% in knowledge-grounded editing, setting a new state-of-the-art for open-source methods, while remaining competitive with leading proprietary models.

От статики к динамике: физически обоснованное редактирование изображений с использованием априорных латентных переходов

From Statics to Dynamics: Physics-Aware Image Editing with Latent Transition Priors

Аннотация

Support