ChatPaper.aiChatPaper

Tinker: Il dono della diffusione al 3D - Modifica coerente multi-vista da input sparsi senza ottimizzazione per scena

Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization

August 20, 2025
Autori: Canyu Zhao, Xiaoman Li, Tianjian Feng, Zhiyue Zhao, Hao Chen, Chunhua Shen
cs.AI

Abstract

Presentiamo Tinker, un framework versatile per l'editing 3D ad alta fedeltà che opera sia in modalità one-shot che few-shot senza alcuna ottimizzazione specifica per scena. A differenza delle tecniche precedenti che richiedono un'ampia ottimizzazione per scena per garantire la coerenza multi-vista o per produrre decine di viste modificate coerenti, Tinker offre modifiche robuste e coerenti su più viste partendo da una o due immagini. Questa capacità deriva dal riutilizzo di modelli di diffusione pre-addestrati, sbloccando la loro consapevolezza latente del 3D. Per promuovere la ricerca in questo ambito, abbiamo curato il primo dataset e pipeline di dati su larga scala per l'editing multi-vista, che copre una vasta gamma di scene e stili. Basandoci su questo dataset, abbiamo sviluppato il nostro framework in grado di generare viste modificate coerenti su più viste senza addestramento specifico per scena, che consiste in due componenti innovativi: (1) Editor multi-vista di riferimento: Consente modifiche precise e guidate da riferimenti che rimangono coerenti in tutte le prospettive. (2) Sintetizzatore da qualsiasi vista a video: Sfrutta i precedenti spazio-temporali dalla diffusione video per eseguire il completamento della scena e la generazione di nuove viste di alta qualità anche da input sparsi. Attraverso esperimenti estensivi, Tinker riduce significativamente la barriera alla creazione di contenuti 3D generalizzabili, raggiungendo prestazioni all'avanguardia nelle attività di editing, sintesi di nuove viste e miglioramento del rendering. Crediamo che Tinker rappresenti un passo fondamentale verso un editing 3D veramente scalabile e zero-shot. Pagina web del progetto: https://aim-uofa.github.io/Tinker
English
We introduce Tinker, a versatile framework for high-fidelity 3D editing that operates in both one-shot and few-shot regimes without any per-scene finetuning. Unlike prior techniques that demand extensive per-scene optimization to ensure multi-view consistency or to produce dozens of consistent edited input views, Tinker delivers robust, multi-view consistent edits from as few as one or two images. This capability stems from repurposing pretrained diffusion models, which unlocks their latent 3D awareness. To drive research in this space, we curate the first large-scale multi-view editing dataset and data pipeline, spanning diverse scenes and styles. Building on this dataset, we develop our framework capable of generating multi-view consistent edited views without per-scene training, which consists of two novel components: (1) Referring multi-view editor: Enables precise, reference-driven edits that remain coherent across all viewpoints. (2) Any-view-to-video synthesizer: Leverages spatial-temporal priors from video diffusion to perform high-quality scene completion and novel-view generation even from sparse inputs. Through extensive experiments, Tinker significantly reduces the barrier to generalizable 3D content creation, achieving state-of-the-art performance on editing, novel-view synthesis, and rendering enhancement tasks. We believe that Tinker represents a key step towards truly scalable, zero-shot 3D editing. Project webpage: https://aim-uofa.github.io/Tinker
PDF392August 21, 2025