ChatPaper.aiChatPaper

PlacidDreamer: テキストから3D生成における調和の推進

PlacidDreamer: Advancing Harmony in Text-to-3D Generation

July 19, 2024
著者: Shuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia
cs.AI

要旨

近年、テキストから3D生成する技術が注目を集め、顕著な性能向上が実現されています。従来の手法では、エンドツーエンドの3D生成モデルを用いて3Dガウシアンを初期化し、マルチビューディフュージョンモデルで多視点一貫性を強化し、テキストから画像生成するディフュージョンモデルとスコア蒸留アルゴリズムで詳細を洗練させていました。しかし、これらの手法には2つの課題があります。第一に、異なるモデルが多様な3Dアセットを生成しようとするため、生成方向に矛盾が生じます。第二に、スコア蒸留における過飽和の問題が十分に調査・解決されていません。これらの課題を解決するため、我々はPlacidDreamerを提案します。これは、単一のマルチビューディフュージョンモデルで初期化、多視点生成、テキスト条件付き生成を調和させつつ、新しいスコア蒸留アルゴリズムを用いてバランスの取れた飽和度を実現するテキストから3D生成のフレームワークです。生成方向を統一するため、Latent-Planeモジュールを導入しました。これはトレーニングに適したプラグイン拡張機能で、マルチビューディフュージョンモデルが初期化のための高速な幾何学再構成を提供し、テキストから画像生成するディフュージョンモデルをパーソナライズするための高品質な多視点画像を生成します。過飽和問題に対処するため、スコア蒸留を多目的最適化問題として捉え、豊富な詳細とバランスの取れた飽和度を両立するパレート最適解を提供するBalanced Score Distillationアルゴリズムを提案しました。大規模な実験により、PlacidDreamerの優れた能力が実証されています。コードはhttps://github.com/HansenHuang0823/PlacidDreamerで公開されています。
English
Recently, text-to-3D generation has attracted significant attention, resulting in notable performance enhancements. Previous methods utilize end-to-end 3D generation models to initialize 3D Gaussians, multi-view diffusion models to enforce multi-view consistency, and text-to-image diffusion models to refine details with score distillation algorithms. However, these methods exhibit two limitations. Firstly, they encounter conflicts in generation directions since different models aim to produce diverse 3D assets. Secondly, the issue of over-saturation in score distillation has not been thoroughly investigated and solved. To address these limitations, we propose PlacidDreamer, a text-to-3D framework that harmonizes initialization, multi-view generation, and text-conditioned generation with a single multi-view diffusion model, while simultaneously employing a novel score distillation algorithm to achieve balanced saturation. To unify the generation direction, we introduce the Latent-Plane module, a training-friendly plug-in extension that enables multi-view diffusion models to provide fast geometry reconstruction for initialization and enhanced multi-view images to personalize the text-to-image diffusion model. To address the over-saturation problem, we propose to view score distillation as a multi-objective optimization problem and introduce the Balanced Score Distillation algorithm, which offers a Pareto Optimal solution that achieves both rich details and balanced saturation. Extensive experiments validate the outstanding capabilities of our PlacidDreamer. The code is available at https://github.com/HansenHuang0823/PlacidDreamer.

Summary

AI-Generated Summary

PDF52November 28, 2024