Progressive3D: Modifica Progressivamente Locale per la Creazione di Contenuti 3D da Testo con Prompt Semantici Complessi

Abstract

I recenti metodi di generazione da testo a 3D raggiungono una capacità impressionante nella creazione di contenuti 3D grazie ai progressi nei modelli di diffusione delle immagini e nelle strategie di ottimizzazione. Tuttavia, gli attuali metodi faticano a generare contenuti 3D corretti per prompt complessi dal punto di vista semantico, ovvero prompt che descrivono più oggetti interagenti associati a diversi attributi. In questo lavoro, proponiamo un framework generale chiamato Progressive3D, che scompone l'intera generazione in una serie di passaggi di modifica localmente progressivi per creare contenuti 3D precisi per prompt complessi, e limitiamo la modifica del contenuto a verificarsi solo nelle regioni determinate da prompt di regione definiti dall'utente in ogni passaggio di modifica. Inoltre, proponiamo una tecnica di soppressione delle componenti semantiche sovrapposte per incoraggiare il processo di ottimizzazione a concentrarsi maggiormente sulle differenze semantiche tra i prompt. Esperimenti estensivi dimostrano che il framework Progressive3D proposto genera contenuti 3D precisi per prompt con semantica complessa ed è generale per vari metodi di generazione da testo a 3D guidati da diverse rappresentazioni 3D.

English

Recent text-to-3D generation methods achieve impressive 3D content creation capacity thanks to the advances in image diffusion models and optimizing strategies. However, current methods struggle to generate correct 3D content for a complex prompt in semantics, i.e., a prompt describing multiple interacted objects binding with different attributes. In this work, we propose a general framework named Progressive3D, which decomposes the entire generation into a series of locally progressive editing steps to create precise 3D content for complex prompts, and we constrain the content change to only occur in regions determined by user-defined region prompts in each editing step. Furthermore, we propose an overlapped semantic component suppression technique to encourage the optimization process to focus more on the semantic differences between prompts. Extensive experiments demonstrate that the proposed Progressive3D framework generates precise 3D content for prompts with complex semantics and is general for various text-to-3D methods driven by different 3D representations.

Progressive3D: Modifica Progressivamente Locale per la Creazione di Contenuti 3D da Testo con Prompt Semantici Complessi

Progressive3D: Progressively Local Editing for Text-to-3D Content Creation with Complex Semantic Prompts

Abstract

Support