Realiz3D: Фотореалистичная 3D-генерация на основе обучения с учетом предметной области

Аннотация

Мы часто стремимся генерировать изображения, которые являются одновременно фотореалистичными и трехмерно-согласованными, подчиняясь точным ограничениям по геометрии, материалу и углу обзора. Обычно это достигается путем тонкой настройки генератора изображений, предварительно обученного на миллиардах реальных снимков, с использованием рендеров синтезированных 3D-объектов, для которых доступны аннотации управляющих сигналов. Хотя такой подход позволяет изучить желаемые управляющие сигналы, он часто снижает реалистичность изображений из-за разрыва доменов между фотографиями и рендерами. Мы наблюдаем, что эта проблема во многом возникает из-за того, что модель обучается нежелательной ассоциации между наличием управляющих сигналов и синтетическим видом изображений. Для решения этой проблемы мы представляем Realiz3D — легковесную структуру обучения диффузионных моделей, которая разделяет управляющие сигналы и визуальный домен. Ключевая идея заключается в том, чтобы явно изучать визуальный домен (реальный или синтетический) отдельно от других управляющих сигналов путем введения ковариаты, которая, будучи поданной в небольшие остаточные адаптеры, сдвигает домен. Затем генератор можно обучить для получения управляемости без подстройки под конкретный визуальный домен. Таким образом, модель можно направлять на создание реалистичных изображений даже при применении управляющих сигналов. Мы улучшаем переносимость управляющих сигналов на реальный домен, используя знания о роли различных слоев и шагов шумоподавления в диффузионных генераторах, что определяет новые стратегии обучения и инференса, которые дополнительно уменьшают разрыв. Мы демонстрируем преимущества Realiz3D в таких задачах, как генерация многовидовых изображений по текстовому описанию и наложение текстур по 3D-входным данным, создавая результаты, которые являются трехмерно-согласованными и фотореалистичными.

English

We often aim to generate images that are both photorealistic and 3D-consistent, adhering to precise geometry, material, and viewpoint controls. Typically, this is achieved by fine-tuning an image generator, pre-trained on billions of real images, using renders of synthetic 3D assets, where annotations for control signals are available. While this approach can learn the desired controls, it often compromises the realism of the images due to domain gap between photographs and renders. We observe that this issue largely arises from the model learning an unintended association between the presence of control signals and the synthetic appearance of the images. To address this, we introduce Realiz3D, a lightweight framework for training diffusion models, that decouples controls and visual domain. The key idea is to explicitly learn visual domain, real or synthetic, separately from other control signals by introducing a co-variate that, fed into small residual adapters, shifts the domain. Then, the generator can be trained to gain controllability, without fitting to specific visual domain. In this way, the model can be guided to produce realistic images even when controls are applied. We enhance control transferability to the real domain by leveraging insights about roles of different layers and denoising steps in diffusion-based generators, informing new training and inference strategies that further mitigate the gap. We demonstrate the advantages of Realiz3D in tasks as text-to-multiview generation and texturing from 3D inputs, producing outputs that are 3D-consistent and photorealistic.