Realiz3D : Génération 3D rendue photoréaliste via l'apprentissage conscient du domaine

Résumé

Nous cherchons souvent à générer des images à la fois photoréalistes et cohérentes en 3D, en respectant des contrôles précis de géométrie, de matériau et de point de vue. Généralement, cela est réalisé par l’ajustement fin d’un générateur d’images, pré-entraîné sur des milliards d’images réelles, en utilisant des rendus d’actifs 3D synthétiques, pour lesquels des annotations des signaux de contrôle sont disponibles. Bien que cette approche permette d’apprendre les contrôles souhaités, elle compromet souvent le réalisme des images en raison de l’écart de domaine entre les photographies et les rendus. Nous observons que ce problème provient en grande partie du fait que le modèle apprend une association non intentionnelle entre la présence des signaux de contrôle et l’apparence synthétique des images. Pour remédier à cela, nous présentons Realiz3D, un cadre léger pour entraîner des modèles de diffusion, qui découple les contrôles du domaine visuel. L’idée clé est d’apprendre explicitement le domaine visuel, réel ou synthétique, séparément des autres signaux de contrôle, en introduisant une covariable qui, injectée dans de petits adaptateurs résiduels, modifie le domaine. Ainsi, le générateur peut être entraîné à acquérir de la contrôlabilité sans s’adapter à un domaine visuel spécifique. De cette manière, le modèle peut être guidé pour produire des images réalistes même lorsque les contrôles sont appliqués. Nous améliorons la transférabilité des contrôles au domaine réel en tirant parti des connaissances sur les rôles des différentes couches et étapes de débruitage dans les générateurs basés sur la diffusion, ce qui éclaire de nouvelles stratégies d’entraînement et d’inférence qui atténuent encore l’écart. Nous démontrons les avantages de Realiz3D dans des tâches telles que la génération texte-à-multivues et la texturation à partir d’entrées 3D, produisant des résultats à la fois cohérents en 3D et photoréalistes.

English

We often aim to generate images that are both photorealistic and 3D-consistent, adhering to precise geometry, material, and viewpoint controls. Typically, this is achieved by fine-tuning an image generator, pre-trained on billions of real images, using renders of synthetic 3D assets, where annotations for control signals are available. While this approach can learn the desired controls, it often compromises the realism of the images due to domain gap between photographs and renders. We observe that this issue largely arises from the model learning an unintended association between the presence of control signals and the synthetic appearance of the images. To address this, we introduce Realiz3D, a lightweight framework for training diffusion models, that decouples controls and visual domain. The key idea is to explicitly learn visual domain, real or synthetic, separately from other control signals by introducing a co-variate that, fed into small residual adapters, shifts the domain. Then, the generator can be trained to gain controllability, without fitting to specific visual domain. In this way, the model can be guided to produce realistic images even when controls are applied. We enhance control transferability to the real domain by leveraging insights about roles of different layers and denoising steps in diffusion-based generators, informing new training and inference strategies that further mitigate the gap. We demonstrate the advantages of Realiz3D in tasks as text-to-multiview generation and texturing from 3D inputs, producing outputs that are 3D-consistent and photorealistic.