Realiz3D: 3D-generatie fotorealistisch gemaakt via domeinbewust leren

Samenvatting

We streven er vaak naar om afbeeldingen te genereren die zowel fotorealistisch als 3D-consistent zijn, met nauwkeurige controle over geometrie, materiaal en camerastandpunten. Dit wordt doorgaans bereikt door een beeldgenerator, die voorgetraind is op miljarden echte afbeeldingen, fijn af te stemmen met behulp van renders van synthetische 3D-assets, waarbij annotaties voor controlesignalen beschikbaar zijn. Hoewel deze aanpak de gewenste controles kan leren, gaat dit vaak ten koste van het realisme van de afbeeldingen vanwege de domeinkloof tussen foto's en renders. Wij observeren dat dit probleem grotendeels voortkomt uit het feit dat het model een onbedoelde associatie leert tussen de aanwezigheid van controlesignalen en het synthetische uiterlijk van de afbeeldingen. Om dit aan te pakken introduceren we Realiz3D, een lichtgewicht raamwerk voor het trainen van diffusiemodellen, dat controles en visueel domein ontkoppelt. Het belangrijkste idee is om het visuele domein, echt of synthetisch, expliciet apart van andere controlesignalen te leren door een covariaat te introduceren dat, gevoed in kleine residuele adapters, het domein verschuift. Vervolgens kan de generator worden getraind om controleerbaarheid te verkrijgen, zonder zich aan te passen aan een specifiek visueel domein. Op deze manier kan het model worden gestuurd om realistische afbeeldingen te produceren, zelfs wanneer controles worden toegepast. We verbeteren de overdraagbaarheid van controles naar het echte domein door gebruik te maken van inzichten over de rollen van verschillende lagen en ontruisstappen in diffusie-gebaseerde generatoren, wat leidt tot nieuwe trainings- en inferentiestrategieën die de kloof verder verkleinen. We demonstreren de voordelen van Realiz3D in taken zoals tekst-naar-multiview-generatie en textureren op basis van 3D-invoer, waarbij resultaten worden geproduceerd die 3D-consistent en fotorealistisch zijn.

English

We often aim to generate images that are both photorealistic and 3D-consistent, adhering to precise geometry, material, and viewpoint controls. Typically, this is achieved by fine-tuning an image generator, pre-trained on billions of real images, using renders of synthetic 3D assets, where annotations for control signals are available. While this approach can learn the desired controls, it often compromises the realism of the images due to domain gap between photographs and renders. We observe that this issue largely arises from the model learning an unintended association between the presence of control signals and the synthetic appearance of the images. To address this, we introduce Realiz3D, a lightweight framework for training diffusion models, that decouples controls and visual domain. The key idea is to explicitly learn visual domain, real or synthetic, separately from other control signals by introducing a co-variate that, fed into small residual adapters, shifts the domain. Then, the generator can be trained to gain controllability, without fitting to specific visual domain. In this way, the model can be guided to produce realistic images even when controls are applied. We enhance control transferability to the real domain by leveraging insights about roles of different layers and denoising steps in diffusion-based generators, informing new training and inference strategies that further mitigate the gap. We demonstrate the advantages of Realiz3D in tasks as text-to-multiview generation and texturing from 3D inputs, producing outputs that are 3D-consistent and photorealistic.