SpatialEdit: Benchmarken van Fijnmazige Ruimtelijke Bewerking van Afbeeldingen
SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing
April 6, 2026
Auteurs: Yicheng Xiao, Wenhu Zhang, Lin Song, Yukang Chen, Wenbo Li, Nan Jiang, Tianhe Ren, Haokun Lin, Wei Huang, Haoyang Huang, Xiu Li, Nan Duan, Xiaojuan Qi
cs.AI
Samenvatting
Beeldruimtelijke bewerking voert geometriegestuurde transformaties uit, waardoor nauwkeurige controle over objectlay-out en camerastandpunten mogelijk is. Bestaande modellen schieten tekort voor fijnmazige ruimtelijke manipulaties, wat de noodzaak voor een toegewijd evaluatiekader motiveert. Onze bijdragen zijn als volgt: (i) We introduceren SpatialEdit-Bench, een complete benchmark die ruimtelijke bewerking evalueert door middel van gezamenlijke meting van perceptuele geloofwaardigheid en geometrische nauwkeurigheid via standpuntreconstructie en kadreringsanalyse. (ii) Om het datatekort voor schaalbare training aan te pakken, construeren we SpatialEdit-500k, een synthetische dataset gegenereerd met een controleerbaar Blender-proces dat objecten weergeeft tegen diverse achtergronden en systematische camerabewegingen, waarbij precieze grondwaar-transformaties worden geboden voor zowel object- als cameragerichte operaties. (iii) Voortbouwend op deze data ontwikkelen we SpatialEdit-16B, een basismodel voor fijnmazige ruimtelijke bewerking. Onze methode behaalt competitieve prestaties bij algemene bewerkingen en overtreft eerdere methoden aanzienlijk bij ruimtelijke manipulatietaken. Alle bronnen worden openbaar gemaakt op https://github.com/EasonXiao-888/SpatialEdit.
English
Image spatial editing performs geometry-driven transformations, allowing precise control over object layout and camera viewpoints. Current models are insufficient for fine-grained spatial manipulations, motivating a dedicated assessment suite. Our contributions are listed: (i) We introduce SpatialEdit-Bench, a complete benchmark that evaluates spatial editing by jointly measuring perceptual plausibility and geometric fidelity via viewpoint reconstruction and framing analysis. (ii) To address the data bottleneck for scalable training, we construct SpatialEdit-500k, a synthetic dataset generated with a controllable Blender pipeline that renders objects across diverse backgrounds and systematic camera trajectories, providing precise ground-truth transformations for both object- and camera-centric operations. (iii) Building on this data, we develop SpatialEdit-16B, a baseline model for fine-grained spatial editing. Our method achieves competitive performance on general editing while substantially outperforming prior methods on spatial manipulation tasks. All resources will be made public at https://github.com/EasonXiao-888/SpatialEdit.