Articles de recherche en IA sélectionnés quotidiennement avec traductions
Ces dernières années, des recherches approfondies se sont concentrées sur la génération de scènes naturelles en 3D, mais le domaine de la génération de villes en 3D n'a pas été autant exploré. Cela s'explique par les défis plus importants posés par la génération de villes en 3D, principalement parce que les humains sont plus sensibles aux distorsions structurelles dans les environnements urbains. De plus, la génération de villes en 3D est plus complexe que celle de scènes naturelles en 3D, car les bâtiments, en tant qu'objets de la même classe, présentent une plus grande variété d'apparences par rapport à l'apparence relativement uniforme d'objets comme les arbres dans les scènes naturelles. Pour relever ces défis, nous proposons CityDreamer, un modèle génératif compositionnel conçu spécifiquement pour les villes en 3D sans limites, qui sépare la génération d'instances de bâtiments des autres objets de fond, tels que les routes, les espaces verts et les zones aquatiques, en modules distincts. Par ailleurs, nous avons construit deux ensembles de données, OSM et GoogleEarth, contenant une vaste quantité d'images de villes réelles pour améliorer le réalisme des villes en 3D générées, tant dans leurs dispositions que dans leurs apparences. À travers des expériences approfondies, CityDreamer a démontré sa supériorité par rapport aux méthodes de pointe dans la génération d'une large gamme de villes en 3D réalistes.
Nous présentons Point-Bind, un modèle multi-modal 3D alignant des nuages de points avec des images 2D, du langage, de l’audio et de la vidéo. Guidé par ImageBind, nous construisons un espace d’intégration commun entre les données 3D et les multi-modalités, permettant de nombreuses applications prometteuses, telles que la génération any-to-3D, l’arithmétique d’intégration 3D et la compréhension 3D du monde ouvert. Sur cette base, nous présentons également Point-LLM, le premier grand modèle de langage (LLM) 3D suivant des instructions multi-modales 3D. Grâce à des techniques de réglage efficace en paramètres, Point-LLM intègre la sémantique de Point-Bind dans des LLM pré-entraînés, tels que LLaMA, sans nécessiter de données d’instruction 3D, tout en démontrant une capacité supérieure en réponse à des questions 3D et multi-modales. Nous espérons que notre travail éclairera la communauté sur l’extension des nuages de points 3D aux applications multi-modales. Le code est disponible à l’adresse suivante : https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.