ChatPaper.aiChatPaper

Tinker: Дар диффузии для 3D — согласованное редактирование по нескольким видам на основе разреженных входных данных без оптимизации для каждой сцены

Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization

August 20, 2025
Авторы: Canyu Zhao, Xiaoman Li, Tianjian Feng, Zhiyue Zhao, Hao Chen, Chunhua Shen
cs.AI

Аннотация

Мы представляем Tinker — универсальный фреймворк для высококачественного 3D-редактирования, который работает как в режиме однократного, так и многократного применения без необходимости тонкой настройки для каждой сцены. В отличие от предыдущих методов, требующих обширной оптимизации для каждой сцены для обеспечения согласованности между несколькими видами или создания десятков согласованных редактированных входных данных, Tinker обеспечивает надежные, согласованные между видами правки, начиная всего с одного или двух изображений. Эта возможность достигается за счет перепрофилирования предобученных диффузионных моделей, что раскрывает их скрытое понимание 3D-пространства. Для стимулирования исследований в этой области мы создали первый крупномасштабный набор данных и конвейер обработки для многовидового редактирования, охватывающий разнообразные сцены и стили. На основе этого набора данных мы разработали наш фреймворк, способный генерировать согласованные между видами редактированные изображения без обучения для каждой сцены, который включает два новых компонента: (1) Редактор с привязкой к нескольким видам: позволяет выполнять точные, управляемые эталоном правки, которые остаются согласованными во всех ракурсах. (2) Синтезатор видео из любого вида: использует пространственно-временные априорные данные из видео-диффузии для выполнения высококачественного завершения сцены и генерации новых видов даже при скудных входных данных. Благодаря обширным экспериментам Tinker значительно снижает барьер для создания обобщаемого 3D-контента, достигая передовых результатов в задачах редактирования, синтеза новых видов и улучшения рендеринга. Мы считаем, что Tinker представляет собой важный шаг к действительно масштабируемому 3D-редактированию без предварительного обучения. Веб-страница проекта: https://aim-uofa.github.io/Tinker
English
We introduce Tinker, a versatile framework for high-fidelity 3D editing that operates in both one-shot and few-shot regimes without any per-scene finetuning. Unlike prior techniques that demand extensive per-scene optimization to ensure multi-view consistency or to produce dozens of consistent edited input views, Tinker delivers robust, multi-view consistent edits from as few as one or two images. This capability stems from repurposing pretrained diffusion models, which unlocks their latent 3D awareness. To drive research in this space, we curate the first large-scale multi-view editing dataset and data pipeline, spanning diverse scenes and styles. Building on this dataset, we develop our framework capable of generating multi-view consistent edited views without per-scene training, which consists of two novel components: (1) Referring multi-view editor: Enables precise, reference-driven edits that remain coherent across all viewpoints. (2) Any-view-to-video synthesizer: Leverages spatial-temporal priors from video diffusion to perform high-quality scene completion and novel-view generation even from sparse inputs. Through extensive experiments, Tinker significantly reduces the barrier to generalizable 3D content creation, achieving state-of-the-art performance on editing, novel-view synthesis, and rendering enhancement tasks. We believe that Tinker represents a key step towards truly scalable, zero-shot 3D editing. Project webpage: https://aim-uofa.github.io/Tinker
PDF322August 21, 2025