Realiz3D: Photorealistische 3D-Generierung durch domänenbewusstes Lernen

Zusammenfassung

Wir möchten oft Bilder erzeugen, die sowohl fotorealistisch als auch 3D-konsistent sind und präzisen Vorgaben zu Geometrie, Material und Kameraperspektive folgen. Typischerweise wird dies erreicht, indem ein Bildgenerator, der auf Milliarden von echten Bildern vortrainiert wurde, mit Renderings von synthetischen 3D-Assets feinabgestimmt wird, bei denen Annotationen für Kontrollsignale verfügbar sind. Obwohl dieser Ansatz die gewünschten Steuerungen erlernen kann, beeinträchtigt er oft die Realitätstreue der Bilder aufgrund der Domänenlücke zwischen Fotos und Renderings. Wir beobachten, dass dieses Problem größtenteils dadurch entsteht, dass das Modell eine unbeabsichtigte Assoziation zwischen dem Vorhandensein von Kontrollsignalen und dem synthetischen Erscheinungsbild der Bilder lernt. Um dem entgegenzuwirken, stellen wir Realiz3D vor, ein leichtgewichtiges Framework zum Trainieren von Diffusionsmodellen, das Kontrollen und visuelle Domäne entkoppelt. Die Kernidee besteht darin, die visuelle Domäne – real oder synthetisch – explizit getrennt von anderen Kontrollsignalen zu lernen, indem eine Kovariate eingeführt wird, die, eingespeist in kleine Residualadapter, die Domäne verschiebt. Dadurch kann der Generator darauf trainiert werden, Steuerbarkeit zu erlangen, ohne sich an eine bestimmte visuelle Domäne anzupassen. Auf diese Weise kann das Modell dazu angeleitet werden, realistische Bilder zu erzeugen, selbst wenn Kontrollen angewendet werden. Wir verbessern die Übertragbarkeit der Steuerung auf die reale Domäne, indem wir Erkenntnisse über die Rollen verschiedener Schichten und Denoising-Schritte in diffusionsbasierten Generatoren nutzen, was neue Trainings- und Inferenzstrategien ermöglicht, die die Lücke weiter verringern. Wir demonstrieren die Vorteile von Realiz3D bei Aufgaben wie Text-zu-Multiview-Generierung und Texturierung aus 3D-Eingaben, wobei Ergebnisse erzielt werden, die sowohl 3D-konsistent als auch fotorealistisch sind.

English

We often aim to generate images that are both photorealistic and 3D-consistent, adhering to precise geometry, material, and viewpoint controls. Typically, this is achieved by fine-tuning an image generator, pre-trained on billions of real images, using renders of synthetic 3D assets, where annotations for control signals are available. While this approach can learn the desired controls, it often compromises the realism of the images due to domain gap between photographs and renders. We observe that this issue largely arises from the model learning an unintended association between the presence of control signals and the synthetic appearance of the images. To address this, we introduce Realiz3D, a lightweight framework for training diffusion models, that decouples controls and visual domain. The key idea is to explicitly learn visual domain, real or synthetic, separately from other control signals by introducing a co-variate that, fed into small residual adapters, shifts the domain. Then, the generator can be trained to gain controllability, without fitting to specific visual domain. In this way, the model can be guided to produce realistic images even when controls are applied. We enhance control transferability to the real domain by leveraging insights about roles of different layers and denoising steps in diffusion-based generators, informing new training and inference strategies that further mitigate the gap. We demonstrate the advantages of Realiz3D in tasks as text-to-multiview generation and texturing from 3D inputs, producing outputs that are 3D-consistent and photorealistic.