Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In den letzten Jahren hat sich die umfangreiche Forschung auf die Generierung von 3D-Naturlandschaften konzentriert, während das Gebiet der 3D-Stadtgenerierung weniger erforscht wurde. Dies liegt an den größeren Herausforderungen, die die 3D-Stadtgenerierung mit sich bringt, vor allem weil Menschen empfindlicher auf strukturelle Verzerrungen in urbanen Umgebungen reagieren. Darüber hinaus ist die Generierung von 3D-Städten komplexer als die von 3D-Naturlandschaften, da Gebäude als Objekte derselben Klasse eine größere Vielfalt an Erscheinungsformen aufweisen im Vergleich zu den relativ einheitlichen Erscheinungsformen von Objekten wie Bäumen in Naturlandschaften. Um diese Herausforderungen zu bewältigen, schlagen wir CityDreamer vor, ein kompositionelles generatives Modell, das speziell für unbegrenzte 3D-Städte entwickelt wurde und die Generierung von Gebäudeinstanzen von anderen Hintergrundobjekten wie Straßen, Grünflächen und Wasserflächen in separate Module aufteilt. Darüber hinaus erstellen wir zwei Datensätze, OSM und GoogleEarth, die eine Vielzahl von realen Stadtbildern enthalten, um den Realismus der generierten 3D-Städte sowohl in ihren Layouts als auch in ihren Erscheinungsformen zu verbessern. Durch umfangreiche Experimente hat sich CityDreamer als überlegen gegenüber state-of-the-art Methoden bei der Generierung einer breiten Palette lebensechter 3D-Städte erwiesen.
Wir stellen Point-Bind vor, ein 3D-Multimodalitätsmodell, das Punktwolken mit 2D-Bildern, Sprache, Audio und Video ausrichtet. Angeleitet durch ImageBind, konstruieren wir einen gemeinsamen Einbettungsraum zwischen 3D und Multimodalitäten, der vielversprechende Anwendungen ermöglicht, wie z.B. Any-to-3D-Generierung, 3D-Einbettungsarithmetik und 3D-Open-World-Verständnis. Darauf aufbauend präsentieren wir weiterhin Point-LLM, das erste 3D-Großsprachmodell (LLM), das 3D-multimodale Anweisungen befolgt. Durch parameter-effiziente Feinabstimmungstechniken integriert Point-LLM die Semantik von Point-Bind in vortrainierte LLMs, wie z.B. LLaMA, was keine 3D-Anweisungsdaten erfordert, aber eine überlegene 3D- und multimodale Frage-Antwort-Fähigkeit zeigt. Wir hoffen, dass unsere Arbeit der Gemeinschaft einen Anstoß geben kann, 3D-Punktwolken auf Multimodalitätsanwendungen auszuweiten. Der Code ist verfügbar unter https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.