Au-delà des prompts : Inversion 3D inconditionnelle pour les formes hors distribution

Résumé

L'inversion pilotée par texte des modèles génératifs est un paradigme fondamental pour manipuler du contenu 2D ou 3D, ouvrant la voie à de nombreuses applications telles que l'édition par texte, le transfert de style ou les problèmes inverses. Cependant, cette approche repose sur l'hypothèse que les modèles génératifs restent sensibles aux instructions en langage naturel. Nous démontrons que pour les modèles génératifs natifs texte-3D de pointe, cette hypothèse s'effondre souvent. Nous identifions un mode de défaillance critique où les trajectoires de génération sont attirées vers des « pièges absorbants » latents : des régions où le modèle devient insensible aux modifications de l'invite. Dans ces régimes, les changements apportés au texte d'entrée ne parviennent pas à modifier les représentations internes de manière à altérer la géométrie de sortie. Fait crucial, nous observons qu'il ne s'agit pas d'une limitation de l'expressivité géométrique du modèle ; les mêmes modèles génératifs possèdent la capacité de produire une vaste diversité de formes mais, comme nous le démontrons, deviennent insensibles à un guidage textuel hors distribution. Nous étudions ce comportement en analysant les trajectoires d'échantillonnage du modèle génératif, et constatons que des géométries complexes peuvent toujours être représentées et produites en exploitant l'a priori génératif inconditionnel du modèle. Cela conduit à un cadre plus robuste pour l'édition de formes 3D basée sur le texte, qui contourne les pièges latents en découplant le pouvoir de représentation géométrique d'un modèle de sa sensibilité linguistique. Notre approche répond aux limitations des pipelines 3D actuels et permet une manipulation sémantique haute fidélité de formes 3D hors distribution. Page web du projet : https://daidedou.sorpi.fr/publication/beyondprompts

English

Text-driven inversion of generative models is a core paradigm for manipulating 2D or 3D content, unlocking numerous applications such as text-based editing, style transfer, or inverse problems. However, it relies on the assumption that generative models remain sensitive to natural language prompts. We demonstrate that for state-of-the-art native text-to-3D generative models, this assumption often collapses. We identify a critical failure mode where generation trajectories are drawn into latent ``sink traps'': regions where the model becomes insensitive to prompt modifications. In these regimes, changes to the input text fail to alter internal representations in a way that alters the output geometry. Crucially, we observe that this is not a limitation of the model's geometric expressivity; the same generative models possess the ability to produce a vast diversity of shapes but, as we demonstrate, become insensitive to out-of-distribution text guidance. We investigate this behavior by analyzing the sampling trajectories of the generative model, and find that complex geometries can still be represented and produced by leveraging the model's unconditional generative prior. This leads to a more robust framework for text-based 3D shape editing that bypasses latent sinks by decoupling a model's geometric representation power from its linguistic sensitivity. Our approach addresses the limitations of current 3D pipelines and enables high-fidelity semantic manipulation of out-of-distribution 3D shapes. Project webpage: https://daidedou.sorpi.fr/publication/beyondprompts

Au-delà des prompts : Inversion 3D inconditionnelle pour les formes hors distribution

Beyond Prompts: Unconditional 3D Inversion for Out-of-Distribution Shapes

Résumé

Support