Artículos de investigación en IA seleccionados diariamente con traducciones
En los últimos años, se ha realizado una extensa investigación sobre la generación de escenas naturales en 3D, pero el dominio de la generación de ciudades en 3D no ha recibido tanta atención. Esto se debe a los mayores desafíos que plantea la generación de ciudades en 3D, principalmente porque los seres humanos son más sensibles a las distorsiones estructurales en entornos urbanos. Además, generar ciudades en 3D es más complejo que generar escenas naturales en 3D, ya que los edificios, como objetos de la misma clase, exhiben una gama más amplia de apariencias en comparación con la apariencia relativamente consistente de objetos como los árboles en escenas naturales. Para abordar estos desafíos, proponemos CityDreamer, un modelo generativo composicional diseñado específicamente para ciudades en 3D ilimitadas, que separa la generación de instancias de edificios de otros objetos de fondo, como carreteras, áreas verdes y zonas de agua, en módulos distintos. Además, construimos dos conjuntos de datos, OSM y GoogleEarth, que contienen una gran cantidad de imágenes de ciudades del mundo real para mejorar el realismo de las ciudades en 3D generadas, tanto en sus diseños como en sus apariencias. A través de extensos experimentos, CityDreamer ha demostrado su superioridad sobre los métodos más avanzados en la generación de una amplia gama de ciudades en 3D realistas.
Presentamos Point-Bind, un modelo de multi-modalidad 3D que alinea nubes de puntos con imágenes 2D, lenguaje, audio y video. Guiados por ImageBind, construimos un espacio de incrustación conjunta entre 3D y multi-modalidades, lo que permite muchas aplicaciones prometedoras, como la generación de cualquier cosa a 3D, aritmética de incrustaciones 3D y comprensión del mundo abierto en 3D. Además, presentamos Point-LLM, el primer modelo de lenguaje grande (LLM) 3D que sigue instrucciones multi-modales en 3D. Mediante técnicas de ajuste fino eficiente en parámetros, Point-LLM inyecta la semántica de Point-Bind en LLMs preentrenados, como LLaMA, lo que no requiere datos de instrucción 3D, pero exhibe una capacidad superior para responder preguntas en 3D y multi-modales. Esperamos que nuestro trabajo ilumine a la comunidad para extender las nubes de puntos 3D a aplicaciones multi-modales. El código está disponible en https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.