Extend3D: Генерация 3D-моделей в масштабе города
Extend3D: Town-Scale 3D Generation
March 31, 2026
Авторы: Seungwoo Yoon, Jinmo Kim, Jaesik Park
cs.AI
Аннотация
В данной статье мы представляем Extend3D — не требующий обучения конвейер для генерации 3D-сцен из одного изображения, построенный на основе объектно-ориентированной 3D-генеративной модели. Чтобы преодолеть ограничения фиксированных латентных пространств в объектно-ориентированных моделях при представлении обширных сцен, мы расширяем латентное пространство по направлениям x и y. Затем, разделив расширенное латентное пространство на перекрывающиеся патчи, мы применяем объектно-ориентированную 3D-генеративную модель к каждому патчу и связываем их на каждом временном шаге. Поскольку покомпонентная 3D-генерация с условием от изображения требует строгого пространственного выравнивания между изображением и латентными патчами, мы инициализируем сцену с помощью априорного облака точек от монокулярного оценивателя глубины и итеративно уточняем окклюдированные области через SDEdit. Мы обнаружили, что трактовка неполноты 3D-структуры как шума в процессе 3D-уточнения позволяет выполнить 3D-достраивание с помощью концепции, которую мы назвали недо-шумлением. Кроме того, для решения проблемы субоптимальности объектно-ориентированных моделей при генерации подсцен мы оптимизируем расширенное латентное пространство в процессе денойзинга, обеспечивая согласованность траекторий денойзинга с динамикой подсцен. С этой целью мы вводим 3D-осознанные целевые функции оптимизации для улучшения геометрической структуры и текстурной точности. Мы демонстрируем, что наш метод дает лучшие результаты по сравнению с предыдущими подходами, что подтверждается предпочтениями пользователей и количественными экспериментами.
English
In this paper, we propose Extend3D, a training-free pipeline for 3D scene generation from a single image, built upon an object-centric 3D generative model. To overcome the limitations of fixed-size latent spaces in object-centric models for representing wide scenes, we extend the latent space in the x and y directions. Then, by dividing the extended latent space into overlapping patches, we apply the object-centric 3D generative model to each patch and couple them at each time step. Since patch-wise 3D generation with image conditioning requires strict spatial alignment between image and latent patches, we initialize the scene using a point cloud prior from a monocular depth estimator and iteratively refine occluded regions through SDEdit. We discovered that treating the incompleteness of 3D structure as noise during 3D refinement enables 3D completion via a concept, which we term under-noising. Furthermore, to address the sub-optimality of object-centric models for sub-scene generation, we optimize the extended latent during denoising, ensuring that the denoising trajectories remain consistent with the sub-scene dynamics. To this end, we introduce 3D-aware optimization objectives for improved geometric structure and texture fidelity. We demonstrate that our method yields better results than prior methods, as evidenced by human preference and quantitative experiments.