ChatPaper.aiChatPaper

Extend3D: Генерация 3D-моделей в масштабе города

Extend3D: Town-Scale 3D Generation

March 31, 2026
Авторы: Seungwoo Yoon, Jinmo Kim, Jaesik Park
cs.AI

Аннотация

В данной статье мы представляем Extend3D — не требующий обучения конвейер для генерации 3D-сцен из одного изображения, построенный на основе объектно-ориентированной 3D-генеративной модели. Чтобы преодолеть ограничения фиксированных латентных пространств в объектно-ориентированных моделях при представлении обширных сцен, мы расширяем латентное пространство по направлениям x и y. Затем, разделив расширенное латентное пространство на перекрывающиеся патчи, мы применяем объектно-ориентированную 3D-генеративную модель к каждому патчу и связываем их на каждом временном шаге. Поскольку покомпонентная 3D-генерация с условием от изображения требует строгого пространственного выравнивания между изображением и латентными патчами, мы инициализируем сцену с помощью априорного облака точек от монокулярного оценивателя глубины и итеративно уточняем окклюдированные области через SDEdit. Мы обнаружили, что трактовка неполноты 3D-структуры как шума в процессе 3D-уточнения позволяет выполнить 3D-достраивание с помощью концепции, которую мы назвали недо-шумлением. Кроме того, для решения проблемы субоптимальности объектно-ориентированных моделей при генерации подсцен мы оптимизируем расширенное латентное пространство в процессе денойзинга, обеспечивая согласованность траекторий денойзинга с динамикой подсцен. С этой целью мы вводим 3D-осознанные целевые функции оптимизации для улучшения геометрической структуры и текстурной точности. Мы демонстрируем, что наш метод дает лучшие результаты по сравнению с предыдущими подходами, что подтверждается предпочтениями пользователей и количественными экспериментами.
English
In this paper, we propose Extend3D, a training-free pipeline for 3D scene generation from a single image, built upon an object-centric 3D generative model. To overcome the limitations of fixed-size latent spaces in object-centric models for representing wide scenes, we extend the latent space in the x and y directions. Then, by dividing the extended latent space into overlapping patches, we apply the object-centric 3D generative model to each patch and couple them at each time step. Since patch-wise 3D generation with image conditioning requires strict spatial alignment between image and latent patches, we initialize the scene using a point cloud prior from a monocular depth estimator and iteratively refine occluded regions through SDEdit. We discovered that treating the incompleteness of 3D structure as noise during 3D refinement enables 3D completion via a concept, which we term under-noising. Furthermore, to address the sub-optimality of object-centric models for sub-scene generation, we optimize the extended latent during denoising, ensuring that the denoising trajectories remain consistent with the sub-scene dynamics. To this end, we introduce 3D-aware optimization objectives for improved geometric structure and texture fidelity. We demonstrate that our method yields better results than prior methods, as evidenced by human preference and quantitative experiments.
PDF141April 2, 2026