ChatPaper.aiChatPaper

Tinker: 拡散モデルがもたらす3Dへの贈り物—シーンごとの最適化を必要としない疎な入力からのマルチビュー整合性編集

Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization

August 20, 2025
著者: Canyu Zhao, Xiaoman Li, Tianjian Feng, Zhiyue Zhao, Hao Chen, Chunhua Shen
cs.AI

要旨

本論文では、高精度な3D編集を実現する汎用フレームワーク「Tinker」を紹介する。Tinkerは、シーンごとの微調整を必要とせず、ワンショットおよび少数ショットの両方のレジームで動作する。従来の手法では、マルチビュー一貫性を確保したり、数十の一貫した編集済み入力ビューを生成するために、シーンごとの大規模な最適化が求められていたが、Tinkerはわずか1枚または2枚の画像から、頑健でマルチビュー一貫性のある編集を実現する。この能力は、事前学習済み拡散モデルを再利用し、その潜在的な3D認識を引き出すことに由来する。この分野の研究を推進するため、多様なシーンとスタイルを網羅する初の大規模マルチビュー編集データセットとデータパイプラインを構築した。このデータセットを基に、シーンごとのトレーニングを必要とせずにマルチビュー一貫性のある編集済みビューを生成するフレームワークを開発した。このフレームワークは、以下の2つの新規コンポーネントで構成される:(1) 参照型マルチビューエディタ:すべての視点で一貫した、参照駆動型の精密な編集を可能にする。(2) 任意ビューからビデオへの合成器:ビデオ拡散から得られる空間-時間的プライアを活用し、疎な入力からでも高品質なシーン補完と新規ビュー生成を実現する。広範な実験を通じて、Tinkerは汎用的な3Dコンテンツ作成の障壁を大幅に低減し、編集、新規ビュー合成、レンダリング強化タスクにおいて最先端の性能を達成した。Tinkerは、真にスケーラブルなゼロショット3D編集に向けた重要な一歩であると考える。プロジェクトウェブページ: https://aim-uofa.github.io/Tinker
English
We introduce Tinker, a versatile framework for high-fidelity 3D editing that operates in both one-shot and few-shot regimes without any per-scene finetuning. Unlike prior techniques that demand extensive per-scene optimization to ensure multi-view consistency or to produce dozens of consistent edited input views, Tinker delivers robust, multi-view consistent edits from as few as one or two images. This capability stems from repurposing pretrained diffusion models, which unlocks their latent 3D awareness. To drive research in this space, we curate the first large-scale multi-view editing dataset and data pipeline, spanning diverse scenes and styles. Building on this dataset, we develop our framework capable of generating multi-view consistent edited views without per-scene training, which consists of two novel components: (1) Referring multi-view editor: Enables precise, reference-driven edits that remain coherent across all viewpoints. (2) Any-view-to-video synthesizer: Leverages spatial-temporal priors from video diffusion to perform high-quality scene completion and novel-view generation even from sparse inputs. Through extensive experiments, Tinker significantly reduces the barrier to generalizable 3D content creation, achieving state-of-the-art performance on editing, novel-view synthesis, and rendering enhancement tasks. We believe that Tinker represents a key step towards truly scalable, zero-shot 3D editing. Project webpage: https://aim-uofa.github.io/Tinker
PDF322August 21, 2025