Progressive3D: Progressieve lokale bewerking voor tekst-naar-3D-inhoudcreatie met complexe semantische prompts
Progressive3D: Progressively Local Editing for Text-to-3D Content Creation with Complex Semantic Prompts
October 18, 2023
Auteurs: Xinhua Cheng, Tianyu Yang, Jianan Wang, Yu Li, Lei Zhang, Jian Zhang, Li Yuan
cs.AI
Samenvatting
Recente tekst-naar-3D-generatiemethoden bereiken indrukwekkende capaciteiten voor het creëren van 3D-inhoud dankzij de vooruitgang in beelddiffusiemodellen en optimalisatiestrategieën. Huidige methoden hebben echter moeite om correcte 3D-inhoud te genereren voor complexe prompts in termen van semantiek, d.w.z. een prompt die meerdere interactieve objecten beschrijft die gebonden zijn aan verschillende attributen. In dit werk stellen we een algemeen framework voor genaamd Progressive3D, dat het gehele generatieproces opdeelt in een reeks lokaal progressieve bewerkingsstappen om precieze 3D-inhoud te creëren voor complexe prompts, en we beperken de inhoudsverandering tot alleen de regio's die worden bepaald door door de gebruiker gedefinieerde regiomeldingen in elke bewerkingsstap. Bovendien introduceren we een techniek voor het onderdrukken van overlappende semantische componenten om het optimalisatieproces te stimuleren zich meer te richten op de semantische verschillen tussen prompts. Uitgebreide experimenten tonen aan dat het voorgestelde Progressive3D-framework precieze 3D-inhoud genereert voor prompts met complexe semantiek en algemeen toepasbaar is voor verschillende tekst-naar-3D-methoden die worden aangedreven door verschillende 3D-representaties.
English
Recent text-to-3D generation methods achieve impressive 3D content creation
capacity thanks to the advances in image diffusion models and optimizing
strategies. However, current methods struggle to generate correct 3D content
for a complex prompt in semantics, i.e., a prompt describing multiple
interacted objects binding with different attributes. In this work, we propose
a general framework named Progressive3D, which decomposes the entire generation
into a series of locally progressive editing steps to create precise 3D content
for complex prompts, and we constrain the content change to only occur in
regions determined by user-defined region prompts in each editing step.
Furthermore, we propose an overlapped semantic component suppression technique
to encourage the optimization process to focus more on the semantic differences
between prompts. Extensive experiments demonstrate that the proposed
Progressive3D framework generates precise 3D content for prompts with complex
semantics and is general for various text-to-3D methods driven by different 3D
representations.