정적 상태에서 동적 상태로: 잠재 전이 사전 지식을 활용한 물리 인식 이미지 편집
From Statics to Dynamics: Physics-Aware Image Editing with Latent Transition Priors
February 25, 2026
저자: Liangbing Zhao, Le Zhuo, Sayak Paul, Hongsheng Li, Mohamed Elhoseiny
cs.AI
초록
지시 기반 이미지 편집은 의미론적 정렬에서 놀라운 성과를 거두었지만, 굴절이나 물질 변형과 같은 복잡한 인과적 역학을 포함하는 편집 작업에서 최첨단 모델들은 종종 물리적으로 타당한 결과를 생성하는 데 실패합니다. 우리는 이러한 한계를 이미지 쌍 간의 이산적 매핑으로 편집을 처리하는 기존 패러다임에서 기인한다고 분석합니다. 이 방식은 경계 조건만을 제공하고 전이 역학을 불충분하게 규정합니다. 이를 해결하기 위해 우리는 물리 인식 편집을 예측적 물리 상태 전이로 재정의하고, 2단계 필터링 및 제약 조건 인식 주석 파이프라인을 통해 구축된 5개 물리 영역에 걸친 38,000개의 전이 궤적으로 구성된 대규모 비디오 기반 데이터셋인 PhysicTran38K를 소개합니다. 이러한 지도를 바탕으로 우리는 텍스트-시각 이중 사고 메커니즘을 갖춘 종단간 프레임워크인 PhysicEdit를 제안합니다. 이 프레임워크는 물리 기반 추론을 위한 고정된 Qwen2.5-VL과 확산 백본에 시간 단계 적응형 시각 지도를 제공하는 학습 가능한 전이 쿼리를 결합합니다. 실험 결과, PhysicEdit는 물리적 현실성에서 Qwen-Image-Edit 대비 5.9%, 지식 기반 편집에서 10.1% 향상된 성능을 보여 오픈소스 방법론의 새로운 최첨단 기술을确立하면서도 주요 사유 모델들과 경쟁력을 유지합니다.
English
Instruction-based image editing has achieved remarkable success in semantic alignment, yet state-of-the-art models frequently fail to render physically plausible results when editing involves complex causal dynamics, such as refraction or material deformation. We attribute this limitation to the dominant paradigm that treats editing as a discrete mapping between image pairs, which provides only boundary conditions and leaves transition dynamics underspecified. To address this, we reformulate physics-aware editing as predictive physical state transitions and introduce PhysicTran38K, a large-scale video-based dataset comprising 38K transition trajectories across five physical domains, constructed via a two-stage filtering and constraint-aware annotation pipeline. Building on this supervision, we propose PhysicEdit, an end-to-end framework equipped with a textual-visual dual-thinking mechanism. It combines a frozen Qwen2.5-VL for physically grounded reasoning with learnable transition queries that provide timestep-adaptive visual guidance to a diffusion backbone. Experiments show that PhysicEdit improves over Qwen-Image-Edit by 5.9% in physical realism and 10.1% in knowledge-grounded editing, setting a new state-of-the-art for open-source methods, while remaining competitive with leading proprietary models.