Aladdin: Генерация стилизованных 3D-ассетов без обучения на основе абстрактных описаний сцен
Aladdin: Zero-Shot Hallucination of Stylized 3D Assets from Abstract Scene Descriptions
June 9, 2023
Авторы: Ian Huang, Vrishab Krishna, Omoruyi Atekha, Leonidas Guibas
cs.AI
Аннотация
Что составляет "атмосферу" конкретной сцены? Что должно быть на "оживленной, грязной городской улице", "в идиллической сельской местности" или "на месте преступления в заброшенной гостиной"? Перевод абстрактных описаний сцен в стилизованные элементы сцены не может быть выполнен с какой-либо универсальностью существующими системами, обученными на жестких и ограниченных наборах данных для помещений. В этой статье мы предлагаем использовать знания, захваченные базовыми моделями, для выполнения этой задачи. Мы представляем систему, которая может служить инструментом для генерации стилизованных ресурсов для 3D-сцен, описанных короткой фразой, без необходимости перечисления объектов, которые должны находиться в сцене, или указаний на их внешний вид. Кроме того, она устойчива к концепциям открытого мира, в отличие от традиционных методов, обученных на ограниченных данных, что предоставляет 3D-художникам больше творческой свободы. Наша система демонстрирует это, используя "команду" базовых моделей, состоящую из крупной языковой модели, модели взаимодействия языка и зрения и нескольких моделей диффузии изображений, которые взаимодействуют через интерпретируемое и редактируемое пользователем промежуточное представление, что позволяет создавать более универсальные и управляемые стилизованные ресурсы для 3D-художников. Мы вводим новые метрики для этой задачи и показываем с помощью человеческой оценки, что в 91% случаев выходные данные нашей системы считаются более соответствующими семантике входного описания сцены, чем базовые результаты, что подчеркивает потенциал этого подхода для радикального ускорения процесса создания 3D-контента для 3D-художников.
English
What constitutes the "vibe" of a particular scene? What should one find in "a
busy, dirty city street", "an idyllic countryside", or "a crime scene in an
abandoned living room"? The translation from abstract scene descriptions to
stylized scene elements cannot be done with any generality by extant systems
trained on rigid and limited indoor datasets. In this paper, we propose to
leverage the knowledge captured by foundation models to accomplish this
translation. We present a system that can serve as a tool to generate stylized
assets for 3D scenes described by a short phrase, without the need to enumerate
the objects to be found within the scene or give instructions on their
appearance. Additionally, it is robust to open-world concepts in a way that
traditional methods trained on limited data are not, affording more creative
freedom to the 3D artist. Our system demonstrates this using a foundation model
"team" composed of a large language model, a vision-language model and several
image diffusion models, which communicate using an interpretable and
user-editable intermediate representation, thus allowing for more versatile and
controllable stylized asset generation for 3D artists. We introduce novel
metrics for this task, and show through human evaluations that in 91% of the
cases, our system outputs are judged more faithful to the semantics of the
input scene description than the baseline, thus highlighting the potential of
this approach to radically accelerate the 3D content creation process for 3D
artists.