Tinker : Le don de la diffusion à la 3D – Édition cohérente multi-vues à partir d'entrées éparses sans optimisation par scène
Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization
August 20, 2025
papers.authors: Canyu Zhao, Xiaoman Li, Tianjian Feng, Zhiyue Zhao, Hao Chen, Chunhua Shen
cs.AI
papers.abstract
Nous présentons Tinker, un cadre polyvalent pour l'édition 3D haute fidélité qui fonctionne à la fois en régime one-shot et few-shot sans nécessiter de réglage fin par scène. Contrairement aux techniques antérieures qui exigent une optimisation extensive par scène pour garantir la cohérence multi-vues ou pour produire des dizaines de vues d'entrée cohérentes, Tinker offre des modifications robustes et cohérentes en multi-vues à partir d'une ou deux images seulement. Cette capacité découle de la réutilisation de modèles de diffusion pré-entraînés, qui débloquent leur conscience latente en 3D. Pour stimuler la recherche dans ce domaine, nous avons constitué le premier ensemble de données et pipeline de données à grande échelle pour l'édition multi-vues, couvrant des scènes et des styles variés. En nous appuyant sur cet ensemble de données, nous avons développé notre cadre capable de générer des vues éditées cohérentes en multi-vues sans entraînement par scène, qui se compose de deux composants novateurs : (1) Éditeur multi-vues référencé : Permet des modifications précises et pilotées par référence qui restent cohérentes sous tous les angles de vue. (2) Synthétiseur any-view-to-video : Exploite les a priori spatio-temporels de la diffusion vidéo pour réaliser une complétion de scène de haute qualité et une génération de nouvelles vues même à partir d'entrées éparses. À travers des expériences approfondies, Tinker réduit considérablement les obstacles à la création de contenu 3D généralisable, atteignant des performances de pointe dans les tâches d'édition, de synthèse de nouvelles vues et d'amélioration du rendu. Nous croyons que Tinker représente une étape clé vers une édition 3D véritablement scalable et zero-shot. Page web du projet : https://aim-uofa.github.io/Tinker
English
We introduce Tinker, a versatile framework for high-fidelity 3D editing that
operates in both one-shot and few-shot regimes without any per-scene
finetuning. Unlike prior techniques that demand extensive per-scene
optimization to ensure multi-view consistency or to produce dozens of
consistent edited input views, Tinker delivers robust, multi-view consistent
edits from as few as one or two images. This capability stems from repurposing
pretrained diffusion models, which unlocks their latent 3D awareness. To drive
research in this space, we curate the first large-scale multi-view editing
dataset and data pipeline, spanning diverse scenes and styles. Building on this
dataset, we develop our framework capable of generating multi-view consistent
edited views without per-scene training, which consists of two novel
components: (1) Referring multi-view editor: Enables precise, reference-driven
edits that remain coherent across all viewpoints. (2) Any-view-to-video
synthesizer: Leverages spatial-temporal priors from video diffusion to perform
high-quality scene completion and novel-view generation even from sparse
inputs. Through extensive experiments, Tinker significantly reduces the barrier
to generalizable 3D content creation, achieving state-of-the-art performance on
editing, novel-view synthesis, and rendering enhancement tasks. We believe that
Tinker represents a key step towards truly scalable, zero-shot 3D editing.
Project webpage: https://aim-uofa.github.io/Tinker