ChatPaper.aiChatPaper

制御されたマルチビュー編集を用いた汎用3D拡散アダプター

Generic 3D Diffusion Adapter Using Controlled Multi-View Editing

March 18, 2024
著者: Hansheng Chen, Ruoxi Shi, Yulin Liu, Bokui Shen, Jiayuan Gu, Gordon Wetzstein, Hao Su, Leonidas Guibas
cs.AI

要旨

オープンドメインの3Dオブジェクト合成は、データの制約と計算複雑性の高さから、画像合成に比べて遅れを取ってきた。このギャップを埋めるため、近年の研究ではマルチビューディフュージョンが探求されているが、3D一貫性、視覚品質、または効率性のいずれかが不足する場合が多い。本論文では、SDEditの3D版として機能するMVEditを提案し、祖先サンプリングを用いてマルチビュー画像を共同でノイズ除去し、高品質なテクスチャ付きメッシュを出力する。既存の2Dディフュージョンモデルを基盤として、MVEditはトレーニング不要の3Dアダプターを通じて3D一貫性を実現する。このアダプターは、最終タイムステップの2Dビューを一貫した3D表現に変換し、レンダリングされたビューを用いて次のタイムステップの2Dビューを条件付けする。視覚品質を損なうことなく、推論時間はわずか2~5分であり、スコア蒸留よりも品質と速度のバランスが優れている。MVEditは非常に汎用性が高く拡張可能であり、テキスト/画像から3D生成、3D編集、高品質テクスチャ合成など幅広い応用が可能である。特に、画像から3D生成およびテキストガイド付きテクスチャ生成タスクにおいて、最先端の性能を実証している。さらに、限られたリソースで小規模な3Dデータセットに基づいて2D潜在ディフュージョンモデルを微調整する方法を導入し、高速な低解像度テキストから3D初期化を可能にする。
English
Open-domain 3D object synthesis has been lagging behind image synthesis due to limited data and higher computational complexity. To bridge this gap, recent works have investigated multi-view diffusion but often fall short in either 3D consistency, visual quality, or efficiency. This paper proposes MVEdit, which functions as a 3D counterpart of SDEdit, employing ancestral sampling to jointly denoise multi-view images and output high-quality textured meshes. Built on off-the-shelf 2D diffusion models, MVEdit achieves 3D consistency through a training-free 3D Adapter, which lifts the 2D views of the last timestep into a coherent 3D representation, then conditions the 2D views of the next timestep using rendered views, without uncompromising visual quality. With an inference time of only 2-5 minutes, this framework achieves better trade-off between quality and speed than score distillation. MVEdit is highly versatile and extendable, with a wide range of applications including text/image-to-3D generation, 3D-to-3D editing, and high-quality texture synthesis. In particular, evaluations demonstrate state-of-the-art performance in both image-to-3D and text-guided texture generation tasks. Additionally, we introduce a method for fine-tuning 2D latent diffusion models on small 3D datasets with limited resources, enabling fast low-resolution text-to-3D initialization.

Summary

AI-Generated Summary

PDF152December 15, 2024