Tinker: Diffusions Beitrag zur 3D-Welt – Multi-Ansicht-konsistente Bearbeitung aus spärlichen Eingaben ohne Optimierung pro Szene
Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization
August 20, 2025
papers.authors: Canyu Zhao, Xiaoman Li, Tianjian Feng, Zhiyue Zhao, Hao Chen, Chunhua Shen
cs.AI
papers.abstract
Wir stellen Tinker vor, ein vielseitiges Framework für hochauflösendes 3D-Editing, das sowohl im One-Shot- als auch im Few-Shot-Regime ohne spezifische Feinabstimmung pro Szene arbeitet. Im Gegensatz zu früheren Techniken, die eine umfangreiche Optimierung pro Szene erfordern, um Multi-View-Konsistenz sicherzustellen oder dutzende konsistente bearbeitete Eingabeansichten zu erzeugen, liefert Tinker robuste, multi-view-konsistente Bearbeitungen bereits aus nur ein oder zwei Bildern. Diese Fähigkeit ergibt sich aus der Umnutzung vortrainierter Diffusionsmodelle, die deren latentes 3D-Verständnis freisetzen. Um die Forschung in diesem Bereich voranzutreiben, haben wir den ersten groß angelegten Multi-View-Editing-Datensatz und Datenpipeline kuratiert, der diverse Szenen und Stile abdeckt. Aufbauend auf diesem Datensatz entwickeln wir unser Framework, das in der Lage ist, multi-view-konsistente bearbeitete Ansichten ohne Training pro Szene zu generieren. Es besteht aus zwei neuartigen Komponenten: (1) Referenzbasierter Multi-View-Editor: Ermöglicht präzise, referenzgesteuerte Bearbeitungen, die über alle Blickwinkel hinweg kohärent bleiben. (2) Any-View-to-Video-Synthesizer: Nutzt räumlich-zeitliche Prioritäten aus der Video-Diffusion, um hochwertige Szenenvervollständigung und Neuansichtgenerierung auch bei spärlichen Eingaben durchzuführen. Durch umfangreiche Experimente reduziert Tinker die Hürden für generalisierbare 3D-Inhaltserstellung erheblich und erreicht Spitzenleistungen in den Bereichen Editing, Neuansichtsynthese und Rendering-Verbesserung. Wir glauben, dass Tinker einen wichtigen Schritt hin zu wirklich skalierbarem, Zero-Shot-3D-Editing darstellt. Projektwebseite: https://aim-uofa.github.io/Tinker
English
We introduce Tinker, a versatile framework for high-fidelity 3D editing that
operates in both one-shot and few-shot regimes without any per-scene
finetuning. Unlike prior techniques that demand extensive per-scene
optimization to ensure multi-view consistency or to produce dozens of
consistent edited input views, Tinker delivers robust, multi-view consistent
edits from as few as one or two images. This capability stems from repurposing
pretrained diffusion models, which unlocks their latent 3D awareness. To drive
research in this space, we curate the first large-scale multi-view editing
dataset and data pipeline, spanning diverse scenes and styles. Building on this
dataset, we develop our framework capable of generating multi-view consistent
edited views without per-scene training, which consists of two novel
components: (1) Referring multi-view editor: Enables precise, reference-driven
edits that remain coherent across all viewpoints. (2) Any-view-to-video
synthesizer: Leverages spatial-temporal priors from video diffusion to perform
high-quality scene completion and novel-view generation even from sparse
inputs. Through extensive experiments, Tinker significantly reduces the barrier
to generalizable 3D content creation, achieving state-of-the-art performance on
editing, novel-view synthesis, and rendering enhancement tasks. We believe that
Tinker represents a key step towards truly scalable, zero-shot 3D editing.
Project webpage: https://aim-uofa.github.io/Tinker