Ежедневно отобранные исследовательские статьи по ИИ с переводами
В последние годы значительные исследования были сосредоточены на генерации трехмерных природных сцен, однако область генерации 3D-городов не получила столь же пристального внимания. Это связано с более сложными задачами, которые ставит генерация 3D-городов, главным образом из-за того, что люди более чувствительны к структурным искажениям в городской среде. Кроме того, генерация 3D-городов сложнее, чем создание природных сцен, поскольку здания, как объекты одного класса, демонстрируют более широкий диапазон внешних видов по сравнению с относительно однородным внешним видом объектов, таких как деревья в природных сценах. Для решения этих задач мы предлагаем CityDreamer — композиционную генеративную модель, специально разработанную для создания неограниченных 3D-городов, которая разделяет генерацию экземпляров зданий и других фоновых объектов, таких как дороги, зеленые зоны и водные пространства, на отдельные модули. Кроме того, мы создали два набора данных, OSM и GoogleEarth, содержащих большое количество изображений реальных городов, чтобы повысить реалистичность генерируемых 3D-городов как в их планировке, так и во внешнем виде. В ходе многочисленных экспериментов CityDreamer доказал свое превосходство над современными методами в генерации широкого спектра реалистичных 3D-городов.
Мы представляем Point-Bind — многомодальную модель для работы с 3D-данными, которая связывает облака точек с 2D-изображениями, текстом, аудио и видео. Руководствуясь подходом ImageBind, мы создаем совместное пространство вложений между 3D-данными и многомодальными представлениями, что открывает возможности для множества перспективных приложений, таких как генерация 3D-объектов из любых данных, арифметика 3D-вложений и понимание 3D-мира в открытых условиях. Кроме того, мы представляем Point-LLM — первую крупную языковую модель (LLM) для работы с 3D-данными, способную выполнять инструкции, связанные с многомодальными 3D-задачами. Используя методы параметрически эффективной тонкой настройки, Point-LLM интегрирует семантику Point-Bind в предобученные LLM, такие как LLaMA, что не требует данных для обучения на 3D-инструкциях, но демонстрирует превосходные способности в ответах на вопросы, связанные с 3D-данными и многомодальностью. Мы надеемся, что наша работа вдохновит сообщество на расширение применения 3D-облаков точек в многомодальных приложениях. Код доступен по адресу https://github.com/ZiyuGuo99/Point-Bind_Point-LLM.