GuideFlow3D: Optimalisatie-Gestuurde Gecorrigeerde Flow Voor Uiterlijksoverdracht

Samenvatting

Het overbrengen van uiterlijk naar 3D-assets met behulp van verschillende representaties van het uiterlijksobject - zoals afbeeldingen of tekst - heeft veel belangstelling gewekt vanwege de brede toepassingsmogelijkheden in industrieën zoals gaming, augmented reality en digitale contentcreatie. State-of-the-art methoden falen echter nog steeds wanneer de geometrie tussen het invoerobject en het uiterlijksobject aanzienlijk verschillend is. Een eenvoudige aanpak is om direct een 3D-generatief model toe te passen, maar wij tonen aan dat dit uiteindelijk geen aantrekkelijke resultaten oplevert. In plaats daarvan stellen we een principiële aanpak voor, geïnspireerd door universele begeleiding. Gegeven een vooraf getraind rectified flow-model dat is geconditioneerd op afbeeldingen of tekst, interageert onze trainingsvrije methode met het bemonsteringsproces door periodiek begeleiding toe te voegen. Deze begeleiding kan worden gemodelleerd als een differentieerbare verliesfunctie, en we experimenteren met twee verschillende soorten begeleiding, waaronder deelbewuste verliezen voor uiterlijk en zelfgelijkheid. Onze experimenten tonen aan dat onze aanpak textuur en geometrische details succesvol overbrengt naar het invoer-3D-asset, waarbij de baseline-methoden zowel kwalitatief als kwantitatief worden overtroffen. We laten ook zien dat traditionele metrieken niet geschikt zijn voor het evalueren van deze taak vanwege hun onvermogen om zich te richten op lokale details en ongelijke invoeren te vergelijken bij afwezigheid van grondwaarheidsgegevens. We evalueren daarom de kwaliteit van het uiterlijksoverdracht met een GPT-gebaseerd systeem dat outputs objectief rangschikt, wat zorgt voor een robuuste en mensachtige beoordeling, zoals verder bevestigd door onze gebruikersstudie. Naast de getoonde scenario's is onze methode algemeen en kan deze worden uitgebreid naar verschillende soorten diffusiemodellen en begeleidingsfuncties.

English

Transferring appearance to 3D assets using different representations of the appearance object - such as images or text - has garnered interest due to its wide range of applications in industries like gaming, augmented reality, and digital content creation. However, state-of-the-art methods still fail when the geometry between the input and appearance objects is significantly different. A straightforward approach is to directly apply a 3D generative model, but we show that this ultimately fails to produce appealing results. Instead, we propose a principled approach inspired by universal guidance. Given a pretrained rectified flow model conditioned on image or text, our training-free method interacts with the sampling process by periodically adding guidance. This guidance can be modeled as a differentiable loss function, and we experiment with two different types of guidance including part-aware losses for appearance and self-similarity. Our experiments show that our approach successfully transfers texture and geometric details to the input 3D asset, outperforming baselines both qualitatively and quantitatively. We also show that traditional metrics are not suitable for evaluating the task due to their inability of focusing on local details and comparing dissimilar inputs, in absence of ground truth data. We thus evaluate appearance transfer quality with a GPT-based system objectively ranking outputs, ensuring robust and human-like assessment, as further confirmed by our user study. Beyond showcased scenarios, our method is general and could be extended to different types of diffusion models and guidance functions.

GuideFlow3D: Optimalisatie-Gestuurde Gecorrigeerde Flow Voor Uiterlijksoverdracht

GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer

Samenvatting

Support