Phidias: Генеративная модель для создания 3D-контента из текста, изображения и 3D-условий с диффузией с увеличением ссылок.
Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion
September 17, 2024
Авторы: Zhenwei Wang, Tengfei Wang, Zexin He, Gerhard Hancke, Ziwei Liu, Rynson W. H. Lau
cs.AI
Аннотация
В 3D-моделировании дизайнеры часто используют существующую 3D-модель в качестве эталона для создания новых. Эта практика вдохновила разработку Phidias, новой генеративной модели, которая использует диффузию для генерации 3D с увеличением по эталону. По заданному изображению наш метод использует извлеченную или предоставленную пользователем 3D-эталонную модель для направления процесса генерации, тем самым повышая качество, обобщающую способность и управляемость генерации. Наша модель интегрирует три ключевых компонента: 1) мета-ControlNet, который динамически модулирует силу условий, 2) динамическую маршрутизацию эталонов, которая уменьшает неправильное выравнивание между входным изображением и 3D-эталоном, и 3) самоэталонные увеличения, которые обеспечивают самообучение с прогрессивной учебной программой. В совокупности эти конструкции приводят к явному улучшению по сравнению с существующими методами. Phidias устанавливает единый каркас для генерации 3D с использованием текста, изображения и 3D-условий с разнообразными применениями.
English
In 3D modeling, designers often use an existing 3D model as a reference to
create new ones. This practice has inspired the development of Phidias, a novel
generative model that uses diffusion for reference-augmented 3D generation.
Given an image, our method leverages a retrieved or user-provided 3D reference
model to guide the generation process, thereby enhancing the generation
quality, generalization ability, and controllability. Our model integrates
three key components: 1) meta-ControlNet that dynamically modulates the
conditioning strength, 2) dynamic reference routing that mitigates misalignment
between the input image and 3D reference, and 3) self-reference augmentations
that enable self-supervised training with a progressive curriculum.
Collectively, these designs result in a clear improvement over existing
methods. Phidias establishes a unified framework for 3D generation using text,
image, and 3D conditions with versatile applications.Summary
AI-Generated Summary