Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In de afgelopen jaren is er uitgebreid onderzoek gedaan naar de generatie van 3D-natuuromgevingen, maar het domein van 3D-stadsgeneratie heeft minder aandacht gekregen. Dit komt door de grotere uitdagingen die 3D-stadsgeneratie met zich meebrengt, voornamelijk omdat mensen gevoeliger zijn voor structurele vervormingen in stedelijke omgevingen. Bovendien is het genereren van 3D-steden complexer dan het genereren van 3D-natuuromgevingen, omdat gebouwen, als objecten van dezelfde klasse, een breder scala aan uiterlijke kenmerken vertonen in vergelijking met de relatief consistente verschijning van objecten zoals bomen in natuuromgevingen. Om deze uitdagingen aan te pakken, stellen we CityDreamer voor, een compositorisch generatief model dat specifiek is ontworpen voor onbegrensde 3D-steden, waarbij de generatie van gebouwen wordt gescheiden van andere achtergrondobjecten, zoals wegen, groengebieden en waterpartijen, in afzonderlijke modules. Daarnaast hebben we twee datasets, OSM en GoogleEarth, samengesteld die een grote hoeveelheid realistische stadsbeelden bevatten om de realiteit van de gegenereerde 3D-steden zowel in hun lay-outs als uiterlijke kenmerken te verbeteren. Door uitgebreide experimenten heeft CityDreamer zijn superioriteit bewezen ten opzichte van state-of-the-art methoden in het genereren van een breed scala aan levensechte 3D-steden.
We introduceren Point-Bind, een 3D multi-modaliteitsmodel dat puntenwolken uitlijnt met 2D-beelden, taal, audio en video. Geleid door ImageBind, construeren we een gezamenlijke inbeddingsruimte tussen 3D en multi-modaliteiten, wat veelbelovende toepassingen mogelijk maakt, zoals any-to-3D-generatie, 3D-inbeddingsrekenkunde en 3D open-wereldbegrip. Daarnaast presenteren we Point-LLM, het eerste 3D large language model (LLM) dat 3D multi-modale instructies volgt. Door gebruik te maken van parameter-efficiënte fine-tuningtechnieken, injecteert Point-LLM de semantiek van Point-Bind in vooraf getrainde LLM's, zoals LLaMA, wat geen 3D-instructiedata vereist, maar superieure 3D- en multi-modale vraag-antwoordcapaciteit vertoont. We hopen dat ons werk de gemeenschap kan inspireren om 3D-puntenwolken uit te breiden naar multi-modaliteitstoepassingen. De code is beschikbaar op https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.