Follow-Your-Shape: Modifica delle Immagini Consapevole della Forma tramite Controllo della Regione Guidato dalla Traiettoria
Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control
August 11, 2025
Autori: Zeqian Long, Mingzhe Zheng, Kunyu Feng, Xinhua Zhang, Hongyu Liu, Harry Yang, Linfeng Zhang, Qifeng Chen, Yue Ma
cs.AI
Abstract
Sebbene i recenti modelli di editing di immagini basati su flussi dimostrino capacità generali in una vasta gamma di compiti, spesso faticano a specializzarsi in scenari complessi, in particolare quelli che coinvolgono trasformazioni su larga scala delle forme. Quando eseguono tali modifiche strutturali, questi metodi o non riescono a ottenere il cambiamento di forma desiderato o alterano involontariamente regioni non target, risultando in una qualità degradata dello sfondo. Proponiamo Follow-Your-Shape, un framework senza addestramento e senza maschere che supporta un editing preciso e controllabile delle forme degli oggetti, preservando rigorosamente il contenuto non target. Motivati dalla divergenza tra le traiettorie di inversione e di editing, calcoliamo una Mappa di Divergenza delle Traiettorie (TDM) confrontando le differenze di velocità token-wise tra i percorsi di inversione e di denoising. La TDM consente una localizzazione precisa delle regioni modificabili e guida un meccanismo di Iniezione KV Programmata che garantisce un editing stabile e fedele. Per facilitare una valutazione rigorosa, introduciamo ReShapeBench, un nuovo benchmark composto da 120 nuove immagini e coppie di prompt arricchite, specificamente curate per l'editing consapevole delle forme. Gli esperimenti dimostrano che il nostro metodo raggiunge una superiore editabilità e fedeltà visiva, in particolare nei compiti che richiedono la sostituzione su larga scala delle forme.
English
While recent flow-based image editing models demonstrate general-purpose
capabilities across diverse tasks, they often struggle to specialize in
challenging scenarios -- particularly those involving large-scale shape
transformations. When performing such structural edits, these methods either
fail to achieve the intended shape change or inadvertently alter non-target
regions, resulting in degraded background quality. We propose
Follow-Your-Shape, a training-free and mask-free framework that supports
precise and controllable editing of object shapes while strictly preserving
non-target content. Motivated by the divergence between inversion and editing
trajectories, we compute a Trajectory Divergence Map (TDM) by comparing
token-wise velocity differences between the inversion and denoising paths. The
TDM enables precise localization of editable regions and guides a Scheduled KV
Injection mechanism that ensures stable and faithful editing. To facilitate a
rigorous evaluation, we introduce ReShapeBench, a new benchmark comprising 120
new images and enriched prompt pairs specifically curated for shape-aware
editing. Experiments demonstrate that our method achieves superior editability
and visual fidelity, particularly in tasks requiring large-scale shape
replacement.