Realiz3D: Generación 3D fotorrealista mediante aprendizaje consciente del dominio

Resumen

A menudo buscamos generar imágenes que sean tanto fotorrealistas como consistentes en 3D, adhiriéndose a controles precisos de geometría, material y punto de vista. Normalmente, esto se logra ajustando un generador de imágenes, preentrenado con miles de millones de imágenes reales, utilizando representaciones de activos sintéticos en 3D, donde las anotaciones para las señales de control están disponibles. Si bien este enfoque puede aprender los controles deseados, a menudo compromete el realismo de las imágenes debido a la brecha de dominio entre las fotografías y las representaciones. Observamos que este problema surge en gran medida porque el modelo aprende una asociación no deseada entre la presencia de señales de control y la apariencia sintética de las imágenes. Para abordar esto, presentamos Realiz3D, un marco ligero para entrenar modelos de difusión que desacopla los controles y el dominio visual. La idea clave es aprender explícitamente el dominio visual, real o sintético, por separado de otras señales de control mediante la introducción de una covariable que, al ser alimentada a pequeños adaptadores residuales, desplaza el dominio. Así, el generador puede entrenarse para ganar controlabilidad sin ajustarse a un dominio visual específico. De esta manera, el modelo puede ser guiado para producir imágenes realistas incluso cuando se aplican controles. Mejoramos la transferibilidad del control al dominio real aprovechando conocimientos sobre los roles de diferentes capas y pasos de eliminación de ruido en los generadores basados en difusión, lo que informa nuevas estrategias de entrenamiento e inferencia que mitigan aún más la brecha. Demostramos las ventajas de Realiz3D en tareas como la generación de múltiples vistas a partir de texto y el texturizado a partir de entradas 3D, produciendo resultados que son consistentes en 3D y fotorrealistas.

English

We often aim to generate images that are both photorealistic and 3D-consistent, adhering to precise geometry, material, and viewpoint controls. Typically, this is achieved by fine-tuning an image generator, pre-trained on billions of real images, using renders of synthetic 3D assets, where annotations for control signals are available. While this approach can learn the desired controls, it often compromises the realism of the images due to domain gap between photographs and renders. We observe that this issue largely arises from the model learning an unintended association between the presence of control signals and the synthetic appearance of the images. To address this, we introduce Realiz3D, a lightweight framework for training diffusion models, that decouples controls and visual domain. The key idea is to explicitly learn visual domain, real or synthetic, separately from other control signals by introducing a co-variate that, fed into small residual adapters, shifts the domain. Then, the generator can be trained to gain controllability, without fitting to specific visual domain. In this way, the model can be guided to produce realistic images even when controls are applied. We enhance control transferability to the real domain by leveraging insights about roles of different layers and denoising steps in diffusion-based generators, informing new training and inference strategies that further mitigate the gap. We demonstrate the advantages of Realiz3D in tasks as text-to-multiview generation and texturing from 3D inputs, producing outputs that are 3D-consistent and photorealistic.