SpatialEdit : Évaluation de l'édition spatiale fine d'images

Résumé

L'édition spatiale d'images réalise des transformations pilotées par la géométrie, permettant un contrôle précis de la disposition des objets et des angles de vue de la caméra. Les modèles actuels sont insuffisants pour les manipulations spatiales fines, ce qui motive la création d'une suite d'évaluation dédiée. Nos contributions sont les suivantes : (i) Nous présentons SpatialEdit-Bench, un benchmark complet qui évalue l'édition spatiale en mesurant conjointement la plausibilité perceptuelle et la fidélité géométrique via la reconstruction du point de vue et l'analyse du cadrage. (ii) Pour résoudre le problème du manque de données pour un entraînement scalable, nous construisons SpatialEdit-500k, un jeu de données synthétique généré avec un pipeline Blender contrôlable qui rend des objets sur divers arrière-plans et selon des trajectoires systématiques de caméra, fournissant des transformations de référence précises pour les opérations centrées sur l'objet et sur la caméra. (iii) En nous appuyant sur ces données, nous développons SpatialEdit-16B, un modèle de référence pour l'édition spatiale fine. Notre méthode obtient des performances compétitives en édition générale tout en surpassant substantiellement les méthodes antérieures sur les tâches de manipulation spatiale. Toutes les ressources seront rendues publiques à l'adresse https://github.com/EasonXiao-888/SpatialEdit.

English

Image spatial editing performs geometry-driven transformations, allowing precise control over object layout and camera viewpoints. Current models are insufficient for fine-grained spatial manipulations, motivating a dedicated assessment suite. Our contributions are listed: (i) We introduce SpatialEdit-Bench, a complete benchmark that evaluates spatial editing by jointly measuring perceptual plausibility and geometric fidelity via viewpoint reconstruction and framing analysis. (ii) To address the data bottleneck for scalable training, we construct SpatialEdit-500k, a synthetic dataset generated with a controllable Blender pipeline that renders objects across diverse backgrounds and systematic camera trajectories, providing precise ground-truth transformations for both object- and camera-centric operations. (iii) Building on this data, we develop SpatialEdit-16B, a baseline model for fine-grained spatial editing. Our method achieves competitive performance on general editing while substantially outperforming prior methods on spatial manipulation tasks. All resources will be made public at https://github.com/EasonXiao-888/SpatialEdit.

SpatialEdit : Évaluation de l'édition spatiale fine d'images

SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing

Résumé

Support