Генерация разъединенных 3D-сцен с обучением компоновки

Аннотация

Мы представляем метод генерации 3D-сцен, которые разделяются на составляющие их объекты. Это разделение осуществляется без учителя, опираясь исключительно на знания крупной предобученной модели для преобразования текста в изображение. Наше ключевое наблюдение заключается в том, что объекты могут быть обнаружены путем поиска частей 3D-сцены, которые при пространственной перестановке всё ещё образуют допустимые конфигурации той же сцены. Конкретно, наш метод совместно оптимизирует несколько NeRF с нуля — каждый из которых представляет свой объект — вместе с набором компоновок, которые объединяют эти объекты в сцены. Затем мы стимулируем, чтобы эти составленные сцены соответствовали распределению данных, согласно генератору изображений. Мы показываем, что, несмотря на свою простоту, наш подход успешно генерирует 3D-сцены, разложенные на отдельные объекты, что открывает новые возможности в создании контента "текст-в-3D". Для результатов и интерактивной демонстрации посетите нашу страницу проекта по адресу https://dave.ml/layoutlearning/.

English

We introduce a method to generate 3D scenes that are disentangled into their component objects. This disentanglement is unsupervised, relying only on the knowledge of a large pretrained text-to-image model. Our key insight is that objects can be discovered by finding parts of a 3D scene that, when rearranged spatially, still produce valid configurations of the same scene. Concretely, our method jointly optimizes multiple NeRFs from scratch - each representing its own object - along with a set of layouts that composite these objects into scenes. We then encourage these composited scenes to be in-distribution according to the image generator. We show that despite its simplicity, our approach successfully generates 3D scenes decomposed into individual objects, enabling new capabilities in text-to-3D content creation. For results and an interactive demo, see our project page at https://dave.ml/layoutlearning/

Генерация разъединенных 3D-сцен с обучением компоновки

Disentangled 3D Scene Generation with Layout Learning

Аннотация

Support