每日精选AI研究论文及翻译
近年来,广泛的研究集中在3D自然场景生成上,但3D城市生成领域却没有得到同样多的探索。这是因为3D城市生成面临更大的挑战,主要是因为人类对城市环境中的结构失真更为敏感。此外,生成3D城市比生成3D自然场景更复杂,因为作为同一类别的对象,建筑物的外观范围比自然场景中树木等相对一致的外观要广泛。为了解决这些挑战,我们提出了CityDreamer,这是一种专为无边界3D城市设计的组合生成模型,将建筑物实例的生成与道路、绿地和水域等其他背景对象的生成分开为不同的模块。此外,我们构建了两个数据集,OSM和GoogleEarth,包含大量真实世界城市图像,以增强生成的3D城市在布局和外观上的逼真度。通过大量实验,CityDreamer已经证明在生成各种逼真的3D城市方面优于最先进的方法。
我们介绍了Point-Bind,这是一个3D多模态模型,将点云与2D图像、语言、音频和视频进行对齐。在ImageBind的指导下,我们构建了3D和多模态之间的联合嵌入空间,实现了许多有前途的应用,例如任意到3D生成、3D嵌入算术和3D开放世界理解。在此基础上,我们进一步提出了Point-LLM,这是第一个遵循3D多模态指令的3D大型语言模型(LLM)。通过参数高效的微调技术,Point-LLM将Point-Bind的语义注入到预训练的LLMs中,例如LLaMA,它不需要3D指令数据,但表现出优越的3D和多模态问答能力。我们希望我们的工作能为将3D点云扩展到多模态应用的社区投下一线希望。代码可在https://github.com/ZiyuGuo99/Point-Bind_Point-LLM找到。