ChatPaper.aiChatPaper

Tinker: 확산 모델의 3D 기여—장면별 최적화 없이 희소 입력에서 다중 뷰 일관성 편집

Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization

August 20, 2025
저자: Canyu Zhao, Xiaoman Li, Tianjian Feng, Zhiyue Zhao, Hao Chen, Chunhua Shen
cs.AI

초록

본 논문에서는 고해상도 3D 편집을 위한 다목적 프레임워크인 Tinker를 소개한다. Tinker는 장면별 미세 조정 없이도 원샷(one-shot) 및 퓨샷(few-shot) 방식으로 작동하며, 기존 기술들과 달리 다중 뷰 일관성을 보장하거나 수십 개의 일관된 편집된 입력 뷰를 생성하기 위해 광범위한 장면별 최적화를 요구하지 않는다. Tinker는 단 한두 장의 이미지로도 견고하고 다중 뷰 일관성을 유지한 편집을 제공한다. 이러한 능력은 사전 학습된 확산 모델(diffusion model)을 재활용하여 잠재적인 3D 인식을 활용함으로써 가능해졌다. 이 분야의 연구를 촉진하기 위해, 우리는 다양한 장면과 스타일을 아우르는 최초의 대규모 다중 뷰 편집 데이터셋과 데이터 파이프라인을 구축했다. 이 데이터셋을 기반으로, 장면별 학습 없이도 다중 뷰 일관성을 유지한 편집된 뷰를 생성할 수 있는 프레임워크를 개발했다. 이 프레임워크는 두 가지 새로운 구성 요소로 이루어져 있다: (1) 참조 기반 다중 뷰 편집기(Referring multi-view editor): 모든 시점에서 일관성을 유지하는 정밀한 참조 기반 편집을 가능하게 한다. (2) 임의 뷰-투-비디오 합성기(Any-view-to-video synthesizer): 비디오 확산 모델의 시공간적 사전 정보를 활용하여 희소한 입력에서도 고품질의 장면 완성 및 새로운 뷰 생성을 수행한다. 광범위한 실험을 통해 Tinker는 일반화 가능한 3D 콘텐츠 생성의 장벽을 크게 낮추며, 편집, 새로운 뷰 합성, 렌더링 향상 작업에서 최첨단 성능을 달성했다. 우리는 Tinker가 진정으로 확장 가능한 제로샷(zero-shot) 3D 편집으로 나아가는 중요한 단계를 대표한다고 믿는다. 프로젝트 웹페이지: https://aim-uofa.github.io/Tinker
English
We introduce Tinker, a versatile framework for high-fidelity 3D editing that operates in both one-shot and few-shot regimes without any per-scene finetuning. Unlike prior techniques that demand extensive per-scene optimization to ensure multi-view consistency or to produce dozens of consistent edited input views, Tinker delivers robust, multi-view consistent edits from as few as one or two images. This capability stems from repurposing pretrained diffusion models, which unlocks their latent 3D awareness. To drive research in this space, we curate the first large-scale multi-view editing dataset and data pipeline, spanning diverse scenes and styles. Building on this dataset, we develop our framework capable of generating multi-view consistent edited views without per-scene training, which consists of two novel components: (1) Referring multi-view editor: Enables precise, reference-driven edits that remain coherent across all viewpoints. (2) Any-view-to-video synthesizer: Leverages spatial-temporal priors from video diffusion to perform high-quality scene completion and novel-view generation even from sparse inputs. Through extensive experiments, Tinker significantly reduces the barrier to generalizable 3D content creation, achieving state-of-the-art performance on editing, novel-view synthesis, and rendering enhancement tasks. We believe that Tinker represents a key step towards truly scalable, zero-shot 3D editing. Project webpage: https://aim-uofa.github.io/Tinker
PDF322August 21, 2025