ChatPaper.aiChatPaper

Follow-Your-Shape: 궤적 기반 영역 제어를 통한 형태 인식 이미지 편집

Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control

August 11, 2025
저자: Zeqian Long, Mingzhe Zheng, Kunyu Feng, Xinhua Zhang, Hongyu Liu, Harry Yang, Linfeng Zhang, Qifeng Chen, Yue Ma
cs.AI

초록

최근의 플로우 기반 이미지 편집 모델들은 다양한 작업에서 범용적인 능력을 보여주지만, 특히 대규모 형태 변환과 관련된 도전적인 시나리오에서는 특화하기 어려운 경우가 많습니다. 이러한 구조적 편집을 수행할 때, 이러한 방법들은 의도한 형태 변화를 달성하지 못하거나 의도하지 않은 영역을 변경하여 배경 품질이 저하되는 문제가 발생합니다. 우리는 Follow-Your-Shape라는 훈련이 필요 없고 마스크가 필요 없는 프레임워크를 제안합니다. 이 프레임워크는 객체 형태의 정밀하고 제어 가능한 편집을 지원하면서도 비대상 콘텐츠를 엄격하게 보존합니다. 인버전과 편집 경로 사이의 차이에서 영감을 받아, 우리는 인버전 경로와 디노이징 경로 간의 토큰 단위 속도 차이를 비교하여 Trajectory Divergence Map(TDM)을 계산합니다. TDM은 편집 가능한 영역을 정확히 찾아내고, 안정적이고 충실한 편집을 보장하는 Scheduled KV Injection 메커니즘을 안내합니다. 엄격한 평가를 위해, 우리는 형태 인식 편집을 위해 특별히 선별된 120개의 새로운 이미지와 풍부한 프롬프트 쌍으로 구성된 새로운 벤치마크인 ReShapeBench을 소개합니다. 실험 결과, 우리의 방법은 특히 대규모 형태 교체가 필요한 작업에서 우수한 편집성과 시각적 충실도를 달성함을 보여줍니다.
English
While recent flow-based image editing models demonstrate general-purpose capabilities across diverse tasks, they often struggle to specialize in challenging scenarios -- particularly those involving large-scale shape transformations. When performing such structural edits, these methods either fail to achieve the intended shape change or inadvertently alter non-target regions, resulting in degraded background quality. We propose Follow-Your-Shape, a training-free and mask-free framework that supports precise and controllable editing of object shapes while strictly preserving non-target content. Motivated by the divergence between inversion and editing trajectories, we compute a Trajectory Divergence Map (TDM) by comparing token-wise velocity differences between the inversion and denoising paths. The TDM enables precise localization of editable regions and guides a Scheduled KV Injection mechanism that ensures stable and faithful editing. To facilitate a rigorous evaluation, we introduce ReShapeBench, a new benchmark comprising 120 new images and enriched prompt pairs specifically curated for shape-aware editing. Experiments demonstrate that our method achieves superior editability and visual fidelity, particularly in tasks requiring large-scale shape replacement.
PDF92August 12, 2025