X-Dreamer: Het creëren van hoogwaardige 3D-inhoud door de domeinkloof te overbruggen tussen tekst-naar-2D en tekst-naar-3D-generatie

Samenvatting

De laatste tijd heeft de automatische creatie van tekst-naar-3D-inhoud aanzienlijke vooruitgang geboekt, gedreven door de ontwikkeling van vooraf getrainde 2D-diffusiemodellen. Bestaande tekst-naar-3D-methoden optimaliseren doorgaans de 3D-representatie om ervoor te zorgen dat de gerenderde afbeelding goed overeenkomt met de gegeven tekst, zoals beoordeeld door het vooraf getrainde 2D-diffusiemodel. Desalniettemin bestaat er een aanzienlijk domeinkloof tussen 2D-afbeeldingen en 3D-assets, voornamelijk toe te schrijven aan variaties in camera-gerelateerde attributen en de exclusieve aanwezigheid van voorgrondobjecten. Hierdoor kan het direct gebruiken van 2D-diffusiemodellen voor het optimaliseren van 3D-representaties leiden tot suboptimale resultaten. Om dit probleem aan te pakken, presenteren we X-Dreamer, een nieuwe benadering voor hoogwaardige tekst-naar-3D-inhoudcreatie die effectief de kloof tussen tekst-naar-2D en tekst-naar-3D-synthese overbrugt. De belangrijkste componenten van X-Dreamer zijn twee innovatieve ontwerpen: Camera-Guided Low-Rank Adaptation (CG-LoRA) en Attention-Mask Alignment (AMA) Loss. CG-LoRA integreert dynamisch camerainformatie in de vooraf getrainde diffusiemodellen door camera-afhankelijke generatie te gebruiken voor trainbare parameters. Deze integratie verbetert de afstemming tussen de gegenereerde 3D-assets en het cameraperspectief. AMA-loss begeleidt de aandachtskaart van het vooraf getrainde diffusiemodel met behulp van het binaire masker van het 3D-object, waarbij de creatie van het voorgrondobject prioriteit krijgt. Deze module zorgt ervoor dat het model zich richt op het genereren van nauwkeurige en gedetailleerde voorgrondobjecten. Uitgebreide evaluaties tonen de effectiviteit van onze voorgestelde methode aan in vergelijking met bestaande tekst-naar-3D-benaderingen. Onze projectwebpagina: https://xmuxiaoma666.github.io/Projects/X-Dreamer.

English

In recent times, automatic text-to-3D content creation has made significant progress, driven by the development of pretrained 2D diffusion models. Existing text-to-3D methods typically optimize the 3D representation to ensure that the rendered image aligns well with the given text, as evaluated by the pretrained 2D diffusion model. Nevertheless, a substantial domain gap exists between 2D images and 3D assets, primarily attributed to variations in camera-related attributes and the exclusive presence of foreground objects. Consequently, employing 2D diffusion models directly for optimizing 3D representations may lead to suboptimal outcomes. To address this issue, we present X-Dreamer, a novel approach for high-quality text-to-3D content creation that effectively bridges the gap between text-to-2D and text-to-3D synthesis. The key components of X-Dreamer are two innovative designs: Camera-Guided Low-Rank Adaptation (CG-LoRA) and Attention-Mask Alignment (AMA) Loss. CG-LoRA dynamically incorporates camera information into the pretrained diffusion models by employing camera-dependent generation for trainable parameters. This integration enhances the alignment between the generated 3D assets and the camera's perspective. AMA loss guides the attention map of the pretrained diffusion model using the binary mask of the 3D object, prioritizing the creation of the foreground object. This module ensures that the model focuses on generating accurate and detailed foreground objects. Extensive evaluations demonstrate the effectiveness of our proposed method compared to existing text-to-3D approaches. Our project webpage: https://xmuxiaoma666.github.io/Projects/X-Dreamer .

X-Dreamer: Het creëren van hoogwaardige 3D-inhoud door de domeinkloof te overbruggen tussen tekst-naar-2D en tekst-naar-3D-generatie

X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation

Samenvatting

Support