번역이 포함된 일일 선별된 AI 연구 논문
최근 몇 년 동안 3D 자연 경관 생성에 대한 광범위한 연구가 진행되어 왔지만, 3D 도시 생성 분야는 상대적으로 덜 탐구되었습니다. 이는 3D 도시 생성이 더 큰 도전 과제를 안고 있기 때문인데, 주로 인간이 도시 환경에서의 구조적 왜곡에 더 민감하게 반응하기 때문입니다. 또한, 3D 도시 생성은 3D 자연 경관 생성보다 더 복잡한데, 이는 동일한 클래스의 객체인 건물들이 자연 경관에서의 나무와 같은 객체들에 비해 더 다양한 외관을 보이기 때문입니다. 이러한 도전 과제를 해결하기 위해, 우리는 무한한 3D 도시를 위해 특별히 설계된 구성적 생성 모델인 CityDreamer를 제안합니다. 이 모델은 건물 인스턴스의 생성을 도로, 녹지, 수역과 같은 다른 배경 객체들의 생성과 별개의 모듈로 분리합니다. 더불어, 우리는 OSM과 GoogleEarth라는 두 개의 데이터셋을 구축하여, 생성된 3D 도시의 레이아웃과 외관 모두에서 현실감을 높이기 위해 방대한 양의 실제 도시 이미지를 포함시켰습니다. 광범위한 실험을 통해, CityDreamer는 다양한 생생한 3D 도시를 생성하는 데 있어 최신 기술을 능가하는 우수성을 입증했습니다.
본 논문에서는 3D 포인트 클라우드를 2D 이미지, 언어, 오디오, 비디오와 정렬하는 3D 다중 모달리티 모델인 Point-Bind를 소개한다. ImageBind를 기반으로 3D와 다중 모달리티 간의 공통 임베딩 공간을 구축하여, 이를 통해 다양한 유망한 응용 프로그램을 가능하게 한다. 예를 들어, 임의의 데이터에서 3D 생성, 3D 임베딩 산술 연산, 그리고 3D 오픈 월드 이해 등이 포함된다. 이를 기반으로, 3D 다중 모달리티 명령어를 따르는 최초의 3D 대형 언어 모델(LLM)인 Point-LLM을 추가로 제시한다. 파라미터 효율적 미세 조정 기법을 통해 Point-LLM은 사전 훈련된 LLM(예: LLaMA)에 Point-Bind의 의미를 주입하며, 이는 3D 명령어 데이터를 필요로 하지 않으면서도 우수한 3D 및 다중 모달리티 질의응답 능력을 보여준다. 본 연구가 3D 포인트 클라우드를 다중 모달리티 응용으로 확장하는 데 있어 커뮤니티에 기여할 수 있기를 바란다. 코드는 https://github.com/ZiyuGuo99/Point-Bind_Point-LLM에서 확인할 수 있다.