Follow-Your-Shape: 궤적 기반 영역 제어를 통한 형태 인식 이미지 편집
Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control
August 11, 2025
저자: Zeqian Long, Mingzhe Zheng, Kunyu Feng, Xinhua Zhang, Hongyu Liu, Harry Yang, Linfeng Zhang, Qifeng Chen, Yue Ma
cs.AI
초록
최근의 플로우 기반 이미지 편집 모델들은 다양한 작업에서 범용적인 능력을 보여주지만, 특히 대규모 형태 변환과 관련된 도전적인 시나리오에서는 특화하기 어려운 경우가 많습니다. 이러한 구조적 편집을 수행할 때, 이러한 방법들은 의도한 형태 변화를 달성하지 못하거나 의도하지 않은 영역을 변경하여 배경 품질이 저하되는 문제가 발생합니다. 우리는 Follow-Your-Shape라는 훈련이 필요 없고 마스크가 필요 없는 프레임워크를 제안합니다. 이 프레임워크는 객체 형태의 정밀하고 제어 가능한 편집을 지원하면서도 비대상 콘텐츠를 엄격하게 보존합니다. 인버전과 편집 경로 사이의 차이에서 영감을 받아, 우리는 인버전 경로와 디노이징 경로 간의 토큰 단위 속도 차이를 비교하여 Trajectory Divergence Map(TDM)을 계산합니다. TDM은 편집 가능한 영역을 정확히 찾아내고, 안정적이고 충실한 편집을 보장하는 Scheduled KV Injection 메커니즘을 안내합니다. 엄격한 평가를 위해, 우리는 형태 인식 편집을 위해 특별히 선별된 120개의 새로운 이미지와 풍부한 프롬프트 쌍으로 구성된 새로운 벤치마크인 ReShapeBench을 소개합니다. 실험 결과, 우리의 방법은 특히 대규모 형태 교체가 필요한 작업에서 우수한 편집성과 시각적 충실도를 달성함을 보여줍니다.
English
While recent flow-based image editing models demonstrate general-purpose
capabilities across diverse tasks, they often struggle to specialize in
challenging scenarios -- particularly those involving large-scale shape
transformations. When performing such structural edits, these methods either
fail to achieve the intended shape change or inadvertently alter non-target
regions, resulting in degraded background quality. We propose
Follow-Your-Shape, a training-free and mask-free framework that supports
precise and controllable editing of object shapes while strictly preserving
non-target content. Motivated by the divergence between inversion and editing
trajectories, we compute a Trajectory Divergence Map (TDM) by comparing
token-wise velocity differences between the inversion and denoising paths. The
TDM enables precise localization of editable regions and guides a Scheduled KV
Injection mechanism that ensures stable and faithful editing. To facilitate a
rigorous evaluation, we introduce ReShapeBench, a new benchmark comprising 120
new images and enriched prompt pairs specifically curated for shape-aware
editing. Experiments demonstrate that our method achieves superior editability
and visual fidelity, particularly in tasks requiring large-scale shape
replacement.