每日精選AI研究論文及翻譯
近年來,廣泛的研究集中在3D自然場景生成上,但3D城市生成領域卻沒有受到同樣多的探索。這是因為3D城市生成帶來更大的挑戰,主要是因為人們對城市環境中結構變形更為敏感。此外,生成3D城市比生成3D自然場景更為複雜,因為作為同一類別的物體,建築物展現出比自然場景中樹木等相對一致外觀更廣泛的外觀範圍。為了應對這些挑戰,我們提出了CityDreamer,一種專門設計用於無邊界3D城市的組合生成模型,將建築實例的生成與其他背景物體(如道路、綠地和水域)的生成區分為不同模塊。此外,我們構建了兩個數據集,OSM和GoogleEarth,其中包含大量真實世界城市圖像,以增強生成的3D城市在佈局和外觀上的逼真度。通過廣泛的實驗,CityDreamer已經證明其在生成各種逼真3D城市方面優於最先進的方法。
我們介紹了Point-Bind,一個3D多模態模型,將點雲與2D圖像、語言、音頻和視頻對齊。在ImageBind的指導下,我們在3D和多模態之間建立了一個聯合嵌入空間,實現了許多有前途的應用,例如任意到3D生成、3D嵌入算術和3D開放世界理解。除此之外,我們進一步提出了Point-LLM,這是第一個遵循3D多模態指令的3D大型語言模型(LLM)。通過參數高效的微調技術,Point-LLM將Point-Bind的語義注入到預先訓練的LLM中,例如LLaMA,它不需要3D指令數據,但表現出優越的3D和多模態問答能力。我們希望我們的工作可以為將3D點雲擴展到多模態應用的社區提供一些啟示。代碼可在https://github.com/ZiyuGuo99/Point-Bind_Point-LLM找到。