Follow-Your-Shape: 軌跡誘導型領域制御による形状認識画像編集
Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control
August 11, 2025
著者: Zeqian Long, Mingzhe Zheng, Kunyu Feng, Xinhua Zhang, Hongyu Liu, Harry Yang, Linfeng Zhang, Qifeng Chen, Yue Ma
cs.AI
要旨
近年のフローベースの画像編集モデルは、多様なタスクにおいて汎用的な能力を示しているが、大規模な形状変換を伴うような困難なシナリオに特化する際に課題を抱えている。このような構造的な編集を行う場合、これらの手法は意図した形状変化を達成できないか、非ターゲット領域を意図せず変更してしまい、背景の品質が低下する結果となる。本研究では、Follow-Your-Shapeを提案する。これは、トレーニング不要かつマスク不要のフレームワークであり、非ターゲットコンテンツを厳密に保ちつつ、オブジェクト形状の精密かつ制御可能な編集をサポートする。逆変換と編集軌道の乖離に着目し、逆変換経路とノイズ除去経路の間のトークンワイズ速度差を比較することで、Trajectory Divergence Map (TDM) を計算する。TDMは編集可能な領域を精密に特定し、安定かつ忠実な編集を保証するScheduled KV Injectionメカニズムを導く。厳密な評価を可能にするため、形状認識編集に特化して新たに120枚の画像とプロンプトペアを精選したReShapeBenchという新しいベンチマークを導入する。実験の結果、本手法は特に大規模な形状置換を必要とするタスクにおいて、優れた編集性と視覚的忠実度を達成することが示された。
English
While recent flow-based image editing models demonstrate general-purpose
capabilities across diverse tasks, they often struggle to specialize in
challenging scenarios -- particularly those involving large-scale shape
transformations. When performing such structural edits, these methods either
fail to achieve the intended shape change or inadvertently alter non-target
regions, resulting in degraded background quality. We propose
Follow-Your-Shape, a training-free and mask-free framework that supports
precise and controllable editing of object shapes while strictly preserving
non-target content. Motivated by the divergence between inversion and editing
trajectories, we compute a Trajectory Divergence Map (TDM) by comparing
token-wise velocity differences between the inversion and denoising paths. The
TDM enables precise localization of editable regions and guides a Scheduled KV
Injection mechanism that ensures stable and faithful editing. To facilitate a
rigorous evaluation, we introduce ReShapeBench, a new benchmark comprising 120
new images and enriched prompt pairs specifically curated for shape-aware
editing. Experiments demonstrate that our method achieves superior editability
and visual fidelity, particularly in tasks requiring large-scale shape
replacement.