ChatPaper.aiChatPaper

SpatialEdit: Benchmarking für fein granulare räumliche Bildbearbeitung

SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing

April 6, 2026
Autoren: Yicheng Xiao, Wenhu Zhang, Lin Song, Yukang Chen, Wenbo Li, Nan Jiang, Tianhe Ren, Haokun Lin, Wei Huang, Haoyang Huang, Xiu Li, Nan Duan, Xiaojuan Qi
cs.AI

Zusammenfassung

Bildliche Raumeditierung führt geometriegetriebene Transformationen durch und ermöglicht eine präzise Steuerung von Objektanordnungen und Kameraperspektiven. Aktuelle Modelle sind für feingranulare räumliche Manipulationen unzureichend, was die Entwicklung einer speziellen Bewertungsplattform motiviert. Unsere Beiträge sind: (i) Wir führen SpatialEdit-Bench ein, einen umfassenden Benchmark, der Raumeditierung evaluiert, indem er perzeptuelle Plausibilität und geometrische Treue gemeinsam durch Perspektivenrekonstruktion und Bildausschnittanalyse misst. (ii) Um den Datenengpass für skalierbares Training zu adressieren, erstellen wir SpatialEdit-500k, einen synthetischen Datensatz, der mit einer kontrollierbaren Blender-Pipeline erzeugt wird. Diese rendert Objekte vor diversen Hintergründen und entlang systematischer Kameratrajektorien und liefert präzise Ground-Truth-Transformationen für sowohl objekt- als auch kamerazentrierte Operationen. (iii) Aufbauend auf diesen Daten entwickeln wir SpatialEdit-16B, ein Basismodell für feingranulare Raumeditierung. Unsere Methode erzielt wettbewerbsfähige Leistung bei allgemeiner Bearbeitung und übertrifft bisherige Methoden bei räumlichen Manipulationsaufgaben erheblich. Alle Ressourcen werden unter https://github.com/EasonXiao-888/SpatialEdit öffentlich zugänglich gemacht.
English
Image spatial editing performs geometry-driven transformations, allowing precise control over object layout and camera viewpoints. Current models are insufficient for fine-grained spatial manipulations, motivating a dedicated assessment suite. Our contributions are listed: (i) We introduce SpatialEdit-Bench, a complete benchmark that evaluates spatial editing by jointly measuring perceptual plausibility and geometric fidelity via viewpoint reconstruction and framing analysis. (ii) To address the data bottleneck for scalable training, we construct SpatialEdit-500k, a synthetic dataset generated with a controllable Blender pipeline that renders objects across diverse backgrounds and systematic camera trajectories, providing precise ground-truth transformations for both object- and camera-centric operations. (iii) Building on this data, we develop SpatialEdit-16B, a baseline model for fine-grained spatial editing. Our method achieves competitive performance on general editing while substantially outperforming prior methods on spatial manipulation tasks. All resources will be made public at https://github.com/EasonXiao-888/SpatialEdit.
PDF262April 8, 2026