Tinker: O Presente da Difusão para o 3D—Edição Consistente em Múltiplas Visualizações a Partir de Entradas Escassas sem Otimização por Cena
Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization
August 20, 2025
Autores: Canyu Zhao, Xiaoman Li, Tianjian Feng, Zhiyue Zhao, Hao Chen, Chunhua Shen
cs.AI
Resumo
Apresentamos o Tinker, um framework versátil para edição 3D de alta fidelidade que opera tanto em regimes de uma única amostra quanto de poucas amostras, sem qualquer ajuste fino por cena. Diferente de técnicas anteriores que exigem extensa otimização por cena para garantir consistência multi-visual ou para produzir dezenas de visualizações editadas consistentes, o Tinker oferece edições robustas e consistentes em múltiplas visualizações a partir de apenas uma ou duas imagens. Essa capacidade surge da reutilização de modelos de difusão pré-treinados, que desbloqueiam sua percepção latente em 3D. Para impulsionar a pesquisa nessa área, organizamos o primeiro conjunto de dados e pipeline de edição multi-visual em grande escala, abrangendo diversas cenas e estilos. Com base nesse conjunto de dados, desenvolvemos nosso framework capaz de gerar visualizações editadas consistentes em múltiplas perspectivas sem treinamento por cena, que consiste em dois novos componentes: (1) Editor multi-visual referenciado: Permite edições precisas e orientadas por referência que permanecem coerentes em todas as perspectivas. (2) Sintetizador de qualquer visualização para vídeo: Aproveita prioridades espaço-temporais da difusão de vídeo para realizar a conclusão de cena e geração de novas visualizações de alta qualidade, mesmo a partir de entradas esparsas. Por meio de extensos experimentos, o Tinker reduz significativamente a barreira para a criação de conteúdo 3D generalizável, alcançando desempenho de ponta em tarefas de edição, síntese de novas visualizações e aprimoramento de renderização. Acreditamos que o Tinker representa um passo crucial em direção à edição 3D verdadeiramente escalável e de zero-shot. Página do projeto: https://aim-uofa.github.io/Tinker
English
We introduce Tinker, a versatile framework for high-fidelity 3D editing that
operates in both one-shot and few-shot regimes without any per-scene
finetuning. Unlike prior techniques that demand extensive per-scene
optimization to ensure multi-view consistency or to produce dozens of
consistent edited input views, Tinker delivers robust, multi-view consistent
edits from as few as one or two images. This capability stems from repurposing
pretrained diffusion models, which unlocks their latent 3D awareness. To drive
research in this space, we curate the first large-scale multi-view editing
dataset and data pipeline, spanning diverse scenes and styles. Building on this
dataset, we develop our framework capable of generating multi-view consistent
edited views without per-scene training, which consists of two novel
components: (1) Referring multi-view editor: Enables precise, reference-driven
edits that remain coherent across all viewpoints. (2) Any-view-to-video
synthesizer: Leverages spatial-temporal priors from video diffusion to perform
high-quality scene completion and novel-view generation even from sparse
inputs. Through extensive experiments, Tinker significantly reduces the barrier
to generalizable 3D content creation, achieving state-of-the-art performance on
editing, novel-view synthesis, and rendering enhancement tasks. We believe that
Tinker represents a key step towards truly scalable, zero-shot 3D editing.
Project webpage: https://aim-uofa.github.io/Tinker