ATT3D: Амортизированный синтез 3D-объектов из текста

Аннотация

Моделирование 3D-объектов на основе текста достигло значительного прогресса благодаря сочетанию генеративных моделей "текст-изображение" с методами "изображение-3D", такими как Neural Radiance Fields. DreamFusion недавно продемонстрировал высококачественные результаты, но требует длительной оптимизации для каждого отдельного текстового запроса при создании 3D-объектов. Чтобы решить эту проблему, мы применяем амортизацию оптимизации для текстовых запросов, обучая модель одновременно на множестве запросов с использованием единой модели вместо раздельной обработки. Это позволяет разделять вычисления между набором запросов, сокращая время обучения по сравнению с оптимизацией для каждого запроса. Наша структура — Amortized Text-to-3D (ATT3D) — обеспечивает обмен знаниями между запросами, что позволяет обобщать подход для новых сценариев и создавать плавные интерполяции между текстами для генерации новых объектов и простых анимаций.

English

Text-to-3D modelling has seen exciting progress by combining generative text-to-image models with image-to-3D methods like Neural Radiance Fields. DreamFusion recently achieved high-quality results but requires a lengthy, per-prompt optimization to create 3D objects. To address this, we amortize optimization over text prompts by training on many prompts simultaneously with a unified model, instead of separately. With this, we share computation across a prompt set, training in less time than per-prompt optimization. Our framework - Amortized text-to-3D (ATT3D) - enables knowledge-sharing between prompts to generalize to unseen setups and smooth interpolations between text for novel assets and simple animations.

ATT3D: Амортизированный синтез 3D-объектов из текста

ATT3D: Amortized Text-to-3D Object Synthesis

Аннотация

Support