SpatialEdit: Avaliação da Edição Espacial de Imagens em Nível Granular
SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing
April 6, 2026
Autores: Yicheng Xiao, Wenhu Zhang, Lin Song, Yukang Chen, Wenbo Li, Nan Jiang, Tianhe Ren, Haokun Lin, Wei Huang, Haoyang Huang, Xiu Li, Nan Duan, Xiaojuan Qi
cs.AI
Resumo
A edição espacial de imagens realiza transformações orientadas geometricamente, permitindo um controle preciso sobre o layout de objetos e os pontos de vista da câmara. Os modelos atuais são insuficientes para manipulações espaciais de granularidade fina, motivando a criação de uma suite de avaliação dedicada. As nossas contribuições são listadas: (i) Apresentamos o SpatialEdit-Bench, um benchmark completo que avalia a edição espacial medindo conjuntamente a plausibilidade perceptual e a fidelidade geométrica através da reconstrução do ponto de vista e da análise de enquadramento. (ii) Para resolver o estrangulamento de dados para treino escalável, construímos o SpatialEdit-500k, um conjunto de dados sintético gerado com um pipeline controlável no Blender que renderiza objetos em diversos fundos e trajetórias sistemáticas de câmara, fornecendo transformações de ground-truth precisas para operações centradas no objeto e na câmara. (iii) Com base nestes dados, desenvolvemos o SpatialEdit-16B, um modelo de base para edição espacial de granularidade fina. O nosso método alcança um desempenho competitivo na edição geral, superando substancialmente métodos anteriores em tarefas de manipulação espacial. Todos os recursos serão disponibilizados publicamente em https://github.com/EasonXiao-888/SpatialEdit.
English
Image spatial editing performs geometry-driven transformations, allowing precise control over object layout and camera viewpoints. Current models are insufficient for fine-grained spatial manipulations, motivating a dedicated assessment suite. Our contributions are listed: (i) We introduce SpatialEdit-Bench, a complete benchmark that evaluates spatial editing by jointly measuring perceptual plausibility and geometric fidelity via viewpoint reconstruction and framing analysis. (ii) To address the data bottleneck for scalable training, we construct SpatialEdit-500k, a synthetic dataset generated with a controllable Blender pipeline that renders objects across diverse backgrounds and systematic camera trajectories, providing precise ground-truth transformations for both object- and camera-centric operations. (iii) Building on this data, we develop SpatialEdit-16B, a baseline model for fine-grained spatial editing. Our method achieves competitive performance on general editing while substantially outperforming prior methods on spatial manipulation tasks. All resources will be made public at https://github.com/EasonXiao-888/SpatialEdit.