Генерация разъединенных 3D-сцен с обучением компоновки
Disentangled 3D Scene Generation with Layout Learning
February 26, 2024
Авторы: Dave Epstein, Ben Poole, Ben Mildenhall, Alexei A. Efros, Aleksander Holynski
cs.AI
Аннотация
Мы представляем метод генерации 3D-сцен, которые разделяются на составляющие их объекты. Это разделение осуществляется без учителя, опираясь исключительно на знания крупной предобученной модели для преобразования текста в изображение. Наше ключевое наблюдение заключается в том, что объекты могут быть обнаружены путем поиска частей 3D-сцены, которые при пространственной перестановке всё ещё образуют допустимые конфигурации той же сцены. Конкретно, наш метод совместно оптимизирует несколько NeRF с нуля — каждый из которых представляет свой объект — вместе с набором компоновок, которые объединяют эти объекты в сцены. Затем мы стимулируем, чтобы эти составленные сцены соответствовали распределению данных, согласно генератору изображений. Мы показываем, что, несмотря на свою простоту, наш подход успешно генерирует 3D-сцены, разложенные на отдельные объекты, что открывает новые возможности в создании контента "текст-в-3D". Для результатов и интерактивной демонстрации посетите нашу страницу проекта по адресу https://dave.ml/layoutlearning/.
English
We introduce a method to generate 3D scenes that are disentangled into their
component objects. This disentanglement is unsupervised, relying only on the
knowledge of a large pretrained text-to-image model. Our key insight is that
objects can be discovered by finding parts of a 3D scene that, when rearranged
spatially, still produce valid configurations of the same scene. Concretely,
our method jointly optimizes multiple NeRFs from scratch - each representing
its own object - along with a set of layouts that composite these objects into
scenes. We then encourage these composited scenes to be in-distribution
according to the image generator. We show that despite its simplicity, our
approach successfully generates 3D scenes decomposed into individual objects,
enabling new capabilities in text-to-3D content creation. For results and an
interactive demo, see our project page at https://dave.ml/layoutlearning/