Realiz3D: Geração 3D Tornada Fotorrealista via Aprendizado Consciente do Domínio

Resumo

Frequentemente, almejamos gerar imagens que sejam tanto fotorrealistas quanto consistentes em 3D, aderindo a controles precisos de geometria, material e ponto de vista. Tipicamente, isso é alcançado ajustando-se um gerador de imagens, pré-treinado em bilhões de imagens reais, utilizando renderizações de ativos 3D sintéticos, onde anotações para sinais de controle estão disponíveis. Embora essa abordagem possa aprender os controles desejados, ela frequentemente compromete o realismo das imagens devido à lacuna de domínio entre fotografias e renderizações. Observamos que esse problema decorre, em grande parte, do modelo aprender uma associação não intencional entre a presença de sinais de controle e a aparência sintética das imagens. Para resolver isso, apresentamos o Realiz3D, uma estrutura leve para treinar modelos de difusão, que desacopla controles e domínio visual. A ideia principal é aprender explicitamente o domínio visual, real ou sintético, separadamente dos outros sinais de controle, introduzindo uma covariável que, quando alimentada em pequenos adaptadores residuais, desloca o domínio. Assim, o gerador pode ser treinado para obter controlabilidade, sem se ajustar a um domínio visual específico. Dessa forma, o modelo pode ser guiado para produzir imagens realistas mesmo quando controles são aplicados. Melhoramos a transferibilidade dos controles para o domínio real ao aproveitar insights sobre os papéis de diferentes camadas e etapas de remoção de ruído em geradores baseados em difusão, informando novas estratégias de treinamento e inferência que mitigam ainda mais a lacuna. Demonstramos as vantagens do Realiz3D em tarefas como geração de multivistas a partir de texto e texturização a partir de entradas 3D, produzindo resultados que são consistentes em 3D e fotorrealistas.

English

We often aim to generate images that are both photorealistic and 3D-consistent, adhering to precise geometry, material, and viewpoint controls. Typically, this is achieved by fine-tuning an image generator, pre-trained on billions of real images, using renders of synthetic 3D assets, where annotations for control signals are available. While this approach can learn the desired controls, it often compromises the realism of the images due to domain gap between photographs and renders. We observe that this issue largely arises from the model learning an unintended association between the presence of control signals and the synthetic appearance of the images. To address this, we introduce Realiz3D, a lightweight framework for training diffusion models, that decouples controls and visual domain. The key idea is to explicitly learn visual domain, real or synthetic, separately from other control signals by introducing a co-variate that, fed into small residual adapters, shifts the domain. Then, the generator can be trained to gain controllability, without fitting to specific visual domain. In this way, the model can be guided to produce realistic images even when controls are applied. We enhance control transferability to the real domain by leveraging insights about roles of different layers and denoising steps in diffusion-based generators, informing new training and inference strategies that further mitigate the gap. We demonstrate the advantages of Realiz3D in tasks as text-to-multiview generation and texturing from 3D inputs, producing outputs that are 3D-consistent and photorealistic.