Artigos de pesquisa em IA selecionados diariamente com traduções
Nos últimos anos, pesquisas extensivas têm se concentrado na geração de cenas naturais em 3D, mas o domínio da geração de cidades em 3D não recebeu tanta exploração. Isso se deve aos maiores desafios apresentados pela geração de cidades em 3D, principalmente porque os seres humanos são mais sensíveis a distorções estruturais em ambientes urbanos. Além disso, gerar cidades em 3D é mais complexo do que cenas naturais em 3D, já que edifícios, como objetos da mesma classe, exibem uma gama mais ampla de aparências em comparação com a aparência relativamente consistente de objetos como árvores em cenas naturais. Para enfrentar esses desafios, propomos o CityDreamer, um modelo generativo composicional projetado especificamente para cidades em 3D ilimitadas, que separa a geração de instâncias de edifícios de outros objetos de fundo, como estradas, áreas verdes e corpos d'água, em módulos distintos. Além disso, construímos dois conjuntos de dados, OSM e GoogleEarth, contendo uma vasta quantidade de imagens de cidades do mundo real para aumentar o realismo das cidades em 3D geradas, tanto em seus layouts quanto em suas aparências. Por meio de experimentos extensivos, o CityDreamer demonstrou sua superioridade em relação aos métodos mais avançados na geração de uma ampla variedade de cidades em 3D realistas.
Apresentamos o Point-Bind, um modelo de multi-modalidade 3D que alinha nuvens de pontos com imagens 2D, linguagem, áudio e vídeo. Guiados pelo ImageBind, construímos um espaço de incorporação conjunta entre 3D e multi-modalidades, permitindo diversas aplicações promissoras, como geração de qualquer-para-3D, aritmética de incorporação 3D e compreensão 3D de mundo aberto. Além disso, apresentamos o Point-LLM, o primeiro modelo de linguagem de grande escala (LLM) 3D que segue instruções multi-modais 3D. Por meio de técnicas de ajuste fino com eficiência de parâmetros, o Point-LLM injeta a semântica do Point-Bind em LLMs pré-treinados, como o LLaMA, o que não requer dados de instrução 3D, mas exibe uma capacidade superior de resposta a perguntas 3D e multi-modais. Esperamos que nosso trabalho possa iluminar a comunidade para a extensão de nuvens de pontos 3D para aplicações de multi-modalidade. O código está disponível em https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.