Voorbij Prompts: Onvoorwaardelijke 3D-inversie voor Vormen Buiten de Verdeling

Samenvatting

Tekstgestuurde inversie van generatieve modellen is een kernparadigma voor het manipuleren van 2D- of 3D-inhoud, wat tal van toepassingen mogelijk maakt, zoals tekstgebaseerd bewerken, stijloverdracht of inverse problemen. Dit gaat echter uit van de veronderstelling dat generatieve modellen gevoelig blijven voor prompts in natuurlijke taal. Wij tonen aan dat deze aanname voor state-of-the-art native tekst-naar-3D-generatieve modellen vaak niet opgaat. Wij identificeren een kritieke faalmodus waarbij generatietrajecten worden getrokken naar latente "sink traps": regio's waar het model ongevoelig wordt voor aanpassingen van de prompt. In deze regimes leiden veranderingen in de invoertekst niet tot wijzigingen in de interne representaties die de uitvoergeometrie beïnvloeden. Cruciaal is dat wij observeren dat dit geen beperking is van de geometrische expressiviteit van het model; dezelfde generatieve modellen zijn weliswaar in staat om een enorme verscheidenheid aan vormen te produceren, maar worden, zoals wij aantonen, ongevoelig voor tekstgeleiding buiten de verdeling. Wij onderzoeken dit gedrag door de steekproeftrajecten van het generatieve model te analyseren en stellen vast dat complexe geometrieën nog steeds kunnen worden gerepresenteerd en geproduceerd door gebruik te maken van de onvoorwaardelijke generatieve prior van het model. Dit leidt tot een robuuster raamwerk voor tekstgebaseerde 3D-vormbewerking dat latente sinks omzeilt door de geometrische representatiekracht van een model te ontkoppelen van zijn linguïstische gevoeligheid. Onze aanpak adresseert de beperkingen van huidige 3D-pipelines en maakt hoogwaardige semantische manipulatie van 3D-vormen buiten de verdeling mogelijk. Projectwebpagina: https://daidedou.sorpi.fr/publication/beyondprompts

English

Text-driven inversion of generative models is a core paradigm for manipulating 2D or 3D content, unlocking numerous applications such as text-based editing, style transfer, or inverse problems. However, it relies on the assumption that generative models remain sensitive to natural language prompts. We demonstrate that for state-of-the-art native text-to-3D generative models, this assumption often collapses. We identify a critical failure mode where generation trajectories are drawn into latent ``sink traps'': regions where the model becomes insensitive to prompt modifications. In these regimes, changes to the input text fail to alter internal representations in a way that alters the output geometry. Crucially, we observe that this is not a limitation of the model's geometric expressivity; the same generative models possess the ability to produce a vast diversity of shapes but, as we demonstrate, become insensitive to out-of-distribution text guidance. We investigate this behavior by analyzing the sampling trajectories of the generative model, and find that complex geometries can still be represented and produced by leveraging the model's unconditional generative prior. This leads to a more robust framework for text-based 3D shape editing that bypasses latent sinks by decoupling a model's geometric representation power from its linguistic sensitivity. Our approach addresses the limitations of current 3D pipelines and enables high-fidelity semantic manipulation of out-of-distribution 3D shapes. Project webpage: https://daidedou.sorpi.fr/publication/beyondprompts

Voorbij Prompts: Onvoorwaardelijke 3D-inversie voor Vormen Buiten de Verdeling

Beyond Prompts: Unconditional 3D Inversion for Out-of-Distribution Shapes

Samenvatting

Support