SpatialEdit: Бенчмарк тонкого пространственного редактирования изображений
SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing
April 6, 2026
Авторы: Yicheng Xiao, Wenhu Zhang, Lin Song, Yukang Chen, Wenbo Li, Nan Jiang, Tianhe Ren, Haokun Lin, Wei Huang, Haoyang Huang, Xiu Li, Nan Duan, Xiaojuan Qi
cs.AI
Аннотация
Пространственное редактирование изображений выполняет геометрически управляемые преобразования, обеспечивая точный контроль над компоновкой объектов и точками обзора камер. Существующие модели недостаточно эффективны для детализированных пространственных манипуляций, что обуславливает необходимость создания специализированного набора для оценки. Наши основные вклады: (i) Мы представляем SpatialEdit-Bench — комплексный бенчмарк, оценивающий пространственное редактирование путём совместного измерения перцептивной правдоподобности и геометрической точности через реконструкцию ракурса и анализ кадрирования. (ii) Для решения проблемы нехватки данных для масштабируемого обучения мы создали SpatialEdit-500k — синтетический набор данных, сгенерированный с помощью управляемого конвейера Blender, который рендерит объекты на разнообразных фонах и систематических траекториях камеры, предоставляя точные эталонные преобразования для объектно-ориентированных и камеро-ориентированных операций. (iii) На основе этих данных мы разработали SpatialEdit-16B — базовую модель для детализированного пространственного редактирования. Наш метод демонстрирует конкурентоспособные результаты в общем редактировании, одновременно значительно превосходя предыдущие методы в задачах пространственного манипулирования. Все ресурсы будут общедоступны по адресу https://github.com/EasonXiao-888/SpatialEdit.
English
Image spatial editing performs geometry-driven transformations, allowing precise control over object layout and camera viewpoints. Current models are insufficient for fine-grained spatial manipulations, motivating a dedicated assessment suite. Our contributions are listed: (i) We introduce SpatialEdit-Bench, a complete benchmark that evaluates spatial editing by jointly measuring perceptual plausibility and geometric fidelity via viewpoint reconstruction and framing analysis. (ii) To address the data bottleneck for scalable training, we construct SpatialEdit-500k, a synthetic dataset generated with a controllable Blender pipeline that renders objects across diverse backgrounds and systematic camera trajectories, providing precise ground-truth transformations for both object- and camera-centric operations. (iii) Building on this data, we develop SpatialEdit-16B, a baseline model for fine-grained spatial editing. Our method achieves competitive performance on general editing while substantially outperforming prior methods on spatial manipulation tasks. All resources will be made public at https://github.com/EasonXiao-888/SpatialEdit.