ChatPaper.aiChatPaper

Progressive3D : Édition locale progressive pour la création de contenu texte-3D avec des invites sémantiques complexes

Progressive3D: Progressively Local Editing for Text-to-3D Content Creation with Complex Semantic Prompts

October 18, 2023
Auteurs: Xinhua Cheng, Tianyu Yang, Jianan Wang, Yu Li, Lei Zhang, Jian Zhang, Li Yuan
cs.AI

Résumé

Les méthodes récentes de génération de texte-à-3D atteignent une capacité impressionnante de création de contenu 3D grâce aux avancées dans les modèles de diffusion d'images et les stratégies d'optimisation. Cependant, les méthodes actuelles peinent à générer un contenu 3D correct pour des prompts complexes sur le plan sémantique, c'est-à-dire des prompts décrivant plusieurs objets interagissant entre eux et associés à différents attributs. Dans ce travail, nous proposons un cadre général nommé Progressive3D, qui décompose la génération entière en une série d'étapes d'édition localement progressives pour créer un contenu 3D précis pour des prompts complexes, et nous contraignons le changement de contenu à se produire uniquement dans les régions déterminées par des prompts de région définis par l'utilisateur à chaque étape d'édition. De plus, nous proposons une technique de suppression des composants sémantiques superposés pour encourager le processus d'optimisation à se concentrer davantage sur les différences sémantiques entre les prompts. Des expériences approfondies démontrent que le cadre Progressive3D proposé génère un contenu 3D précis pour des prompts à sémantique complexe et est généralisable à diverses méthodes texte-à-3D pilotées par différentes représentations 3D.
English
Recent text-to-3D generation methods achieve impressive 3D content creation capacity thanks to the advances in image diffusion models and optimizing strategies. However, current methods struggle to generate correct 3D content for a complex prompt in semantics, i.e., a prompt describing multiple interacted objects binding with different attributes. In this work, we propose a general framework named Progressive3D, which decomposes the entire generation into a series of locally progressive editing steps to create precise 3D content for complex prompts, and we constrain the content change to only occur in regions determined by user-defined region prompts in each editing step. Furthermore, we propose an overlapped semantic component suppression technique to encourage the optimization process to focus more on the semantic differences between prompts. Extensive experiments demonstrate that the proposed Progressive3D framework generates precise 3D content for prompts with complex semantics and is general for various text-to-3D methods driven by different 3D representations.
PDF112December 15, 2024