SpatialEdit: Evaluación de la Edición Espacial Fina de Imágenes
SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing
April 6, 2026
Autores: Yicheng Xiao, Wenhu Zhang, Lin Song, Yukang Chen, Wenbo Li, Nan Jiang, Tianhe Ren, Haokun Lin, Wei Huang, Haoyang Huang, Xiu Li, Nan Duan, Xiaojuan Qi
cs.AI
Resumen
La edición espacial de imágenes realiza transformaciones guiadas por geometría, permitiendo un control preciso sobre la disposición de objetos y los puntos de vista de la cámara. Los modelos actuales son insuficientes para manipulaciones espaciales de grano fino, lo que motiva un conjunto de evaluación dedicado. Nuestras contribuciones se enumeran: (i) Presentamos SpatialEdit-Bench, un benchmark completo que evalúa la edición espacial midiendo conjuntamente la plausibilidad perceptual y la fidelidad geométrica mediante reconstrucción de viewpoint y análisis de encuadre. (ii) Para abordar el cuello de botella de datos en el entrenamiento escalable, construimos SpatialEdit-500k, un conjunto de datos sintético generado con una pipeline controlable de Blender que renderiza objetos en diversos fondos y trayectorias sistemáticas de cámara, proporcionando transformaciones ground-truth precisas para operaciones tanto centradas en objetos como en cámara. (iii) Basándonos en estos datos, desarrollamos SpatialEdit-16B, un modelo baseline para edición espacial de grano fino. Nuestro método logra un rendimiento competitivo en edición general mientras supera sustancialmente a métodos anteriores en tareas de manipulación espacial. Todos los recursos se harán públicos en https://github.com/EasonXiao-888/SpatialEdit.
English
Image spatial editing performs geometry-driven transformations, allowing precise control over object layout and camera viewpoints. Current models are insufficient for fine-grained spatial manipulations, motivating a dedicated assessment suite. Our contributions are listed: (i) We introduce SpatialEdit-Bench, a complete benchmark that evaluates spatial editing by jointly measuring perceptual plausibility and geometric fidelity via viewpoint reconstruction and framing analysis. (ii) To address the data bottleneck for scalable training, we construct SpatialEdit-500k, a synthetic dataset generated with a controllable Blender pipeline that renders objects across diverse backgrounds and systematic camera trajectories, providing precise ground-truth transformations for both object- and camera-centric operations. (iii) Building on this data, we develop SpatialEdit-16B, a baseline model for fine-grained spatial editing. Our method achieves competitive performance on general editing while substantially outperforming prior methods on spatial manipulation tasks. All resources will be made public at https://github.com/EasonXiao-888/SpatialEdit.