翻訳付きの日次キュレーションされたAI研究論文
近年、3D自然シーンの生成に関する研究が盛んに行われているが、3D都市生成の分野はそれほど探索されていない。これは、3D都市生成がより大きな課題を抱えているためであり、主に人間が都市環境における構造の歪みに対してより敏感であることが理由である。さらに、3D都市の生成は3D自然シーンよりも複雑であり、同じクラスのオブジェクトである建物は、自然シーンにおける木などの比較的一貫した外観を持つオブジェクトに比べて、より多様な外観を示す。これらの課題に対処するため、我々はCityDreamerを提案する。これは、無制限の3D都市に特化した合成的生成モデルであり、建物インスタンスの生成を、道路、緑地、水域などの他の背景オブジェクトから分離し、別々のモジュールとして設計している。さらに、OSMとGoogleEarthという2つのデータセットを構築し、現実世界の都市画像を大量に含めることで、生成される3D都市のレイアウトと外観の現実感を高めている。広範な実験を通じて、CityDreamerは、多様なリアルな3D都市を生成する点で、最先端の手法を凌駕する優位性を証明している。
本論文では、3D点群と2D画像、言語、音声、ビデオを統合する3DマルチモダリティモデルであるPoint-Bindを紹介します。ImageBindをガイドとして、3Dとマルチモダリティ間の共同埋め込み空間を構築し、any-to-3D生成、3D埋め込み演算、3Dオープンワールド理解など、多くの有望なアプリケーションを可能にします。さらに、3Dマルチモーダル命令に従う最初の3D大規模言語モデル(LLM)であるPoint-LLMを提案します。パラメータ効率の良いファインチューニング技術により、Point-LLMはPoint-BindのセマンティクスをLLaMAなどの事前学習済みLLMに注入し、3D命令データを必要とせずに、優れた3Dおよびマルチモーダル質問応答能力を示します。本研究が、3D点群をマルチモダリティアプリケーションに拡張するためのコミュニティへの一助となることを願っています。コードはhttps://github.com/ZiyuGuo99/Point-Bind_Point-LLMで公開されています。