SpatialEdit: Benchmarking per la Modifica Spaziale Fine-Grained delle Immagini
SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing
April 6, 2026
Autori: Yicheng Xiao, Wenhu Zhang, Lin Song, Yukang Chen, Wenbo Li, Nan Jiang, Tianhe Ren, Haokun Lin, Wei Huang, Haoyang Huang, Xiu Li, Nan Duan, Xiaojuan Qi
cs.AI
Abstract
L'editing spaziale delle immagini esegue trasformazioni guidate dalla geometria, consentendo un controllo preciso sul layout degli oggetti e sui punti di vista della telecamera. I modelli attuali sono insufficienti per manipolazioni spaziali granulari, motivando la creazione di una suite di valutazione dedicata. I nostri contributi sono i seguenti: (i) Introduciamo SpatialEdit-Bench, un benchmark completo che valuta l'editing spaziale misurando congiuntamente la plausibilità percettiva e la fedeltà geometrica attraverso la ricostruzione del punto di vista e l'analisi dell'inquadratura. (ii) Per affrontare il collo di bottiglia dei dati per l'addestramento scalabile, costruiamo SpatialEdit-500k, un dataset sintetico generato con una pipeline controllabile in Blender che renderizza oggetti su sfondi diversi e lungo traiettorie sistematiche della telecamera, fornendo trasformazioni di ground-truth precise per operazioni sia centrate sull'oggetto che sulla telecamera. (iii) Basandoci su questi dati, sviluppiamo SpatialEdit-16B, un modello di riferimento per l'editing spaziale granulare. Il nostro metodo raggiunge prestazioni competitive nell'editing generale superando sostanzialmente i metodi precedenti nei compiti di manipolazione spaziale. Tutte le risorse saranno rese pubbliche su https://github.com/EasonXiao-888/SpatialEdit.
English
Image spatial editing performs geometry-driven transformations, allowing precise control over object layout and camera viewpoints. Current models are insufficient for fine-grained spatial manipulations, motivating a dedicated assessment suite. Our contributions are listed: (i) We introduce SpatialEdit-Bench, a complete benchmark that evaluates spatial editing by jointly measuring perceptual plausibility and geometric fidelity via viewpoint reconstruction and framing analysis. (ii) To address the data bottleneck for scalable training, we construct SpatialEdit-500k, a synthetic dataset generated with a controllable Blender pipeline that renders objects across diverse backgrounds and systematic camera trajectories, providing precise ground-truth transformations for both object- and camera-centric operations. (iii) Building on this data, we develop SpatialEdit-16B, a baseline model for fine-grained spatial editing. Our method achieves competitive performance on general editing while substantially outperforming prior methods on spatial manipulation tasks. All resources will be made public at https://github.com/EasonXiao-888/SpatialEdit.