ChatPaper.aiChatPaper

Build-A-Scene: Interactieve 3D Lay-outcontrole voor Diffusie-Gebaseerde Afbeeldingsgeneratie

Build-A-Scene: Interactive 3D Layout Control for Diffusion-Based Image Generation

August 27, 2024
Auteurs: Abdelrahman Eldesokey, Peter Wonka
cs.AI

Samenvatting

Wij stellen een diffusiegebaseerde aanpak voor voor Text-to-Image (T2I) generatie met interactieve 3D-layoutcontrole. Layoutcontrole is uitgebreid bestudeerd om de tekortkomingen van T2I-diffusiemodellen in het begrijpen van de plaatsing en relaties van objecten vanuit tekstbeschrijvingen te verlichten. Desalniettemin zijn bestaande benaderingen voor layoutcontrole beperkt tot 2D-layouts, vereisen ze dat de gebruiker vooraf een statische layout opgeeft, en slagen ze er niet in gegenereerde afbeeldingen te behouden onder layoutwijzigingen. Dit maakt deze benaderingen ongeschikt voor toepassingen die 3D-objectcontrole en iteratieve verfijningen vereisen, zoals interieurontwerp en complexe scènegeneratie. Daarom maken we gebruik van de recente vooruitgang in dieptegestuurde T2I-modellen en stellen we een nieuwe aanpak voor voor interactieve 3D-layoutcontrole. We vervangen de traditionele 2D-boxen die worden gebruikt in layoutcontrole door 3D-boxen. Bovendien herzien we de T2I-taak als een meerfasig generatieproces, waarbij de gebruiker in elke fase een object in 3D kan invoegen, wijzigen en verplaatsen, terwijl objecten uit eerdere fasen behouden blijven. We bereiken dit door onze voorgestelde Dynamische Self-Attention (DSA) module en de consistente 3D-objectvertaalstrategie. Experimenten tonen aan dat onze aanpak complexe scènes kan genereren op basis van 3D-layouts, waardoor het succespercentage van objectgeneratie ten opzichte van standaard dieptegestuurde T2I-methoden verdubbelt. Bovendien presteert het beter dan andere methoden in het behouden van objecten onder layoutwijzigingen. Projectpagina: https://abdo-eldesokey.github.io/build-a-scene/
English
We propose a diffusion-based approach for Text-to-Image (T2I) generation with interactive 3D layout control. Layout control has been widely studied to alleviate the shortcomings of T2I diffusion models in understanding objects' placement and relationships from text descriptions. Nevertheless, existing approaches for layout control are limited to 2D layouts, require the user to provide a static layout beforehand, and fail to preserve generated images under layout changes. This makes these approaches unsuitable for applications that require 3D object-wise control and iterative refinements, e.g., interior design and complex scene generation. To this end, we leverage the recent advancements in depth-conditioned T2I models and propose a novel approach for interactive 3D layout control. We replace the traditional 2D boxes used in layout control with 3D boxes. Furthermore, we revamp the T2I task as a multi-stage generation process, where at each stage, the user can insert, change, and move an object in 3D while preserving objects from earlier stages. We achieve this through our proposed Dynamic Self-Attention (DSA) module and the consistent 3D object translation strategy. Experiments show that our approach can generate complicated scenes based on 3D layouts, boosting the object generation success rate over the standard depth-conditioned T2I methods by 2x. Moreover, it outperforms other methods in comparison in preserving objects under layout changes. Project Page: https://abdo-eldesokey.github.io/build-a-scene/

Summary

AI-Generated Summary

PDF224November 16, 2024