ChatPaper.aiChatPaper

Tinker: Diffusie's Geschenk aan 3D--Meerzijdig Consistente Bewerking vanuit Schaarse Inputs zonder Optimalisatie per Scene

Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization

August 20, 2025
Auteurs: Canyu Zhao, Xiaoman Li, Tianjian Feng, Zhiyue Zhao, Hao Chen, Chunhua Shen
cs.AI

Samenvatting

We introduceren Tinker, een veelzijdig raamwerk voor hoogwaardige 3D-bewerkingen dat werkt in zowel one-shot als few-shot regimes zonder enige per-scene finetuning. In tegenstelling tot eerdere technieken die uitgebreide per-scene optimalisatie vereisen om multi-view consistentie te garanderen of om tientallen consistente bewerkte invoerbeelden te produceren, levert Tinker robuuste, multi-view consistente bewerkingen vanaf slechts één of twee afbeeldingen. Deze mogelijkheid komt voort uit het hergebruik van vooraf getrainde diffusiemodellen, waardoor hun latente 3D-bewustzijn wordt ontsloten. Om onderzoek in dit domein te stimuleren, hebben we de eerste grootschalige multi-view bewerkingsdataset en datapijplijn samengesteld, die diverse scènes en stijlen omvat. Op basis van deze dataset ontwikkelen we ons raamwerk dat in staat is om multi-view consistente bewerkte beelden te genereren zonder per-scene training, en dat bestaat uit twee nieuwe componenten: (1) Refererende multi-view editor: Maakt precieze, referentiegestuurde bewerkingen mogelijk die coherent blijven over alle gezichtspunten. (2) Any-view-to-video synthesizer: Benut ruimtelijk-temporele prioriteiten van videodiffusie om hoogwaardige scènecompletering en novel-view generatie uit te voeren, zelfs vanuit schaarse invoer. Door uitgebreide experimenten reduceert Tinker de drempel voor generaliseerbare 3D-contentcreatie aanzienlijk en behaalt het state-of-the-art prestaties op het gebied van bewerkingen, novel-view synthese en renderingverbetering. Wij geloven dat Tinker een belangrijke stap vertegenwoordigt naar echt schaalbare, zero-shot 3D-bewerkingen. Projectwebpagina: https://aim-uofa.github.io/Tinker
English
We introduce Tinker, a versatile framework for high-fidelity 3D editing that operates in both one-shot and few-shot regimes without any per-scene finetuning. Unlike prior techniques that demand extensive per-scene optimization to ensure multi-view consistency or to produce dozens of consistent edited input views, Tinker delivers robust, multi-view consistent edits from as few as one or two images. This capability stems from repurposing pretrained diffusion models, which unlocks their latent 3D awareness. To drive research in this space, we curate the first large-scale multi-view editing dataset and data pipeline, spanning diverse scenes and styles. Building on this dataset, we develop our framework capable of generating multi-view consistent edited views without per-scene training, which consists of two novel components: (1) Referring multi-view editor: Enables precise, reference-driven edits that remain coherent across all viewpoints. (2) Any-view-to-video synthesizer: Leverages spatial-temporal priors from video diffusion to perform high-quality scene completion and novel-view generation even from sparse inputs. Through extensive experiments, Tinker significantly reduces the barrier to generalizable 3D content creation, achieving state-of-the-art performance on editing, novel-view synthesis, and rendering enhancement tasks. We believe that Tinker represents a key step towards truly scalable, zero-shot 3D editing. Project webpage: https://aim-uofa.github.io/Tinker
PDF402August 21, 2025