AvatarVerse: Hoogwaardige en stabiele 3D-avatarcreatie op basis van tekst en pose

Samenvatting

Het creëren van expressieve, diverse en hoogwaardige 3D-avatars op basis van sterk aangepaste tekstbeschrijvingen en posebegeleiding is een uitdagende taak, vanwege de complexiteit van het modelleren en textureren in 3D die details en verschillende stijlen (realistisch, fictief, etc.) waarborgen. Wij presenteren AvatarVerse, een stabiele pijplijn voor het genereren van expressieve, hoogwaardige 3D-avatars uit niets anders dan tekstbeschrijvingen en posebegeleiding. Specifiek introduceren we een 2D-diffusiemodel dat is geconditioneerd op DensePose-signalen om 3D-posecontrole van avatars via 2D-afbeeldingen te realiseren, wat de consistentie van het gezichtspunt verbetert in gedeeltelijk waargenomen scenario's. Dit lost het beruchte Janus-probleem op en stabiliseert het generatieproces aanzienlijk. Bovendien stellen we een progressieve strategie voor hoogwaardige 3D-synthese voor, wat een aanzienlijke verbetering oplevert in de kwaliteit van de gecreëerde 3D-avatars. Hierdoor bereikt de voorgestelde AvatarVerse-pijplijn zero-shot 3D-modellering van 3D-avatars die niet alleen expressiever zijn, maar ook van hogere kwaliteit en betrouwbaarheid dan eerdere werken. Uitgebreide kwalitatieve evaluaties en gebruikersstudies tonen de superioriteit van AvatarVerse aan in het synthetiseren van hoogwaardige 3D-avatars, wat leidt tot een nieuwe standaard in hoogwaardige en stabiele 3D-avatarcreatie. Onze projectpagina is: https://avatarverse3d.github.io.

English

Creating expressive, diverse and high-quality 3D avatars from highly customized text descriptions and pose guidance is a challenging task, due to the intricacy of modeling and texturing in 3D that ensure details and various styles (realistic, fictional, etc). We present AvatarVerse, a stable pipeline for generating expressive high-quality 3D avatars from nothing but text descriptions and pose guidance. In specific, we introduce a 2D diffusion model conditioned on DensePose signal to establish 3D pose control of avatars through 2D images, which enhances view consistency from partially observed scenarios. It addresses the infamous Janus Problem and significantly stablizes the generation process. Moreover, we propose a progressive high-resolution 3D synthesis strategy, which obtains substantial improvement over the quality of the created 3D avatars. To this end, the proposed AvatarVerse pipeline achieves zero-shot 3D modeling of 3D avatars that are not only more expressive, but also in higher quality and fidelity than previous works. Rigorous qualitative evaluations and user studies showcase AvatarVerse's superiority in synthesizing high-fidelity 3D avatars, leading to a new standard in high-quality and stable 3D avatar creation. Our project page is: https://avatarverse3d.github.io

AvatarVerse: Hoogwaardige en stabiele 3D-avatarcreatie op basis van tekst en pose

AvatarVerse: High-quality & Stable 3D Avatar Creation from Text and Pose

Samenvatting

Support