Más allá de los prompts: Inversión 3D incondicional para formas fuera de distribución

Resumen

La inversión guiada por texto de modelos generativos es un paradigma fundamental para manipular contenido 2D o 3D, desbloqueando numerosas aplicaciones como la edición basada en texto, la transferencia de estilo o la resolución de problemas inversos. Sin embargo, se basa en el supuesto de que los modelos generativos mantienen su sensibilidad a las indicaciones en lenguaje natural. Demostramos que, para los modelos generativos nativos de última generación que crean contenido 3D a partir de texto, este supuesto a menudo se derrumba. Identificamos un modo de fallo crítico en el que las trayectorias de generación son atraídas hacia "trampas-sumidero" latentes: regiones donde el modelo se vuelve insensible a las modificaciones del *prompt*. En estos regímenes, los cambios en el texto de entrada no logran alterar las representaciones internas de manera que modifiquen la geometría de salida. De manera crucial, observamos que esto no es una limitación de la expresividad geométrica del modelo; los mismos modelos generativos poseen la capacidad de producir una vasta diversidad de formas, pero, como demostramos, se vuelven insensibles a las guías textuales fuera de distribución. Investigamos este comportamiento analizando las trayectorias de muestreo del modelo generativo y encontramos que aún se pueden representar y producir geometrías complejas aprovechando el *prior* generativo incondicional del modelo. Esto conduce a un marco más robusto para la edición de formas 3D basada en texto que elude los sumideros latentes al desacoplar el poder de representación geométrica de un modelo de su sensibilidad lingüística. Nuestro enfoque aborda las limitaciones de los *pipelines* 3D actuales y permite la manipulación semántica de alta fidelidad de formas 3D fuera de distribución. Página web del proyecto: https://daidedou.sorpi.fr/publication/beyondprompts

English

Text-driven inversion of generative models is a core paradigm for manipulating 2D or 3D content, unlocking numerous applications such as text-based editing, style transfer, or inverse problems. However, it relies on the assumption that generative models remain sensitive to natural language prompts. We demonstrate that for state-of-the-art native text-to-3D generative models, this assumption often collapses. We identify a critical failure mode where generation trajectories are drawn into latent ``sink traps'': regions where the model becomes insensitive to prompt modifications. In these regimes, changes to the input text fail to alter internal representations in a way that alters the output geometry. Crucially, we observe that this is not a limitation of the model's geometric expressivity; the same generative models possess the ability to produce a vast diversity of shapes but, as we demonstrate, become insensitive to out-of-distribution text guidance. We investigate this behavior by analyzing the sampling trajectories of the generative model, and find that complex geometries can still be represented and produced by leveraging the model's unconditional generative prior. This leads to a more robust framework for text-based 3D shape editing that bypasses latent sinks by decoupling a model's geometric representation power from its linguistic sensitivity. Our approach addresses the limitations of current 3D pipelines and enables high-fidelity semantic manipulation of out-of-distribution 3D shapes. Project webpage: https://daidedou.sorpi.fr/publication/beyondprompts

Más allá de los prompts: Inversión 3D incondicional para formas fuera de distribución

Beyond Prompts: Unconditional 3D Inversion for Out-of-Distribution Shapes

Resumen

Support