ChatPaper.aiChatPaper

Tinker: El Regalo de la Difusión al 3D—Edición Consistente en Múltiples Vistas a Partir de Entradas Escasas sin Optimización por Escena

Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization

August 20, 2025
Autores: Canyu Zhao, Xiaoman Li, Tianjian Feng, Zhiyue Zhao, Hao Chen, Chunhua Shen
cs.AI

Resumen

Presentamos Tinker, un marco versátil para la edición de alta fidelidad en 3D que opera tanto en regímenes de una sola toma como de pocas tomas, sin necesidad de ajustes específicos por escena. A diferencia de técnicas anteriores que requieren una optimización extensa por escena para garantizar la consistencia multivista o para producir docenas de vistas editadas consistentes, Tinker ofrece ediciones robustas y consistentes en múltiples vistas a partir de tan solo una o dos imágenes. Esta capacidad surge de la reutilización de modelos de difusión preentrenados, lo que desbloquea su conciencia latente en 3D. Para impulsar la investigación en este ámbito, hemos creado el primer conjunto de datos y canalización de datos a gran escala para la edición multivista, abarcando diversas escenas y estilos. Basándonos en este conjunto de datos, desarrollamos nuestro marco capaz de generar vistas editadas consistentes en múltiples vistas sin entrenamiento específico por escena, el cual consta de dos componentes novedosos: (1) Editor multivista referencial: Permite ediciones precisas y guiadas por referencias que permanecen coherentes en todos los puntos de vista. (2) Sintetizador de cualquier vista a video: Aprovecha los antecedentes espacio-temporales de la difusión de video para realizar la completación de escenas de alta calidad y la generación de nuevas vistas incluso a partir de entradas escasas. A través de experimentos exhaustivos, Tinker reduce significativamente la barrera para la creación de contenido 3D generalizable, logrando un rendimiento de vanguardia en tareas de edición, síntesis de nuevas vistas y mejora de renderizado. Creemos que Tinker representa un paso clave hacia la edición 3D verdaderamente escalable y de cero tomas. Página del proyecto: https://aim-uofa.github.io/Tinker.
English
We introduce Tinker, a versatile framework for high-fidelity 3D editing that operates in both one-shot and few-shot regimes without any per-scene finetuning. Unlike prior techniques that demand extensive per-scene optimization to ensure multi-view consistency or to produce dozens of consistent edited input views, Tinker delivers robust, multi-view consistent edits from as few as one or two images. This capability stems from repurposing pretrained diffusion models, which unlocks their latent 3D awareness. To drive research in this space, we curate the first large-scale multi-view editing dataset and data pipeline, spanning diverse scenes and styles. Building on this dataset, we develop our framework capable of generating multi-view consistent edited views without per-scene training, which consists of two novel components: (1) Referring multi-view editor: Enables precise, reference-driven edits that remain coherent across all viewpoints. (2) Any-view-to-video synthesizer: Leverages spatial-temporal priors from video diffusion to perform high-quality scene completion and novel-view generation even from sparse inputs. Through extensive experiments, Tinker significantly reduces the barrier to generalizable 3D content creation, achieving state-of-the-art performance on editing, novel-view synthesis, and rendering enhancement tasks. We believe that Tinker represents a key step towards truly scalable, zero-shot 3D editing. Project webpage: https://aim-uofa.github.io/Tinker
PDF322August 21, 2025