Além dos Prompts: Inversão 3D Incondicional para Formas Fora da Distribuição

Resumo

A inversão orientada por texto de modelos generativos é um paradigma central para manipular conteúdo 2D ou 3D, desbloqueando inúmeras aplicações, como edição baseada em texto, transferência de estilo ou problemas inversos. No entanto, ela depende da premissa de que os modelos generativos permanecem sensíveis a comandos de linguagem natural. Demonstramos que, para os mais avançados modelos generativos nativos de texto-para-3D, essa premissa frequentemente colapsa. Identificamos um modo crítico de falha em que as trajetórias de geração são atraídas para "armadilhas de sumidouro" latentes: regiões onde o modelo se torna insensível a modificações do comando. Nesses regimes, alterações no texto de entrada não conseguem modificar as representações internas de forma a alterar a geometria de saída. Crucialmente, observamos que esta não é uma limitação da expressividade geométrica do modelo; os mesmos modelos generativos possuem a capacidade de produzir uma vasta diversidade de formas, mas, como demonstramos, tornam-se insensíveis à orientação textual fora da distribuição. Investigamos esse comportamento analisando as trajetórias de amostragem do modelo generativo e descobrimos que geometrias complexas ainda podem ser representadas e produzidas aproveitando o prior generativo incondicional do modelo. Isso leva a uma estrutura mais robusta para a edição de formas 3D baseada em texto que contorna os sumidouros latentes, desacoplando o poder de representação geométrica de um modelo de sua sensibilidade linguística. Nossa abordagem aborda as limitações dos *pipelines* 3D atuais e permite a manipulação semântica de alta fidelidade de formas 3D fora da distribuição. Página do projeto: https://daidedou.sorpi.fr/publication/beyondprompts

English

Text-driven inversion of generative models is a core paradigm for manipulating 2D or 3D content, unlocking numerous applications such as text-based editing, style transfer, or inverse problems. However, it relies on the assumption that generative models remain sensitive to natural language prompts. We demonstrate that for state-of-the-art native text-to-3D generative models, this assumption often collapses. We identify a critical failure mode where generation trajectories are drawn into latent ``sink traps'': regions where the model becomes insensitive to prompt modifications. In these regimes, changes to the input text fail to alter internal representations in a way that alters the output geometry. Crucially, we observe that this is not a limitation of the model's geometric expressivity; the same generative models possess the ability to produce a vast diversity of shapes but, as we demonstrate, become insensitive to out-of-distribution text guidance. We investigate this behavior by analyzing the sampling trajectories of the generative model, and find that complex geometries can still be represented and produced by leveraging the model's unconditional generative prior. This leads to a more robust framework for text-based 3D shape editing that bypasses latent sinks by decoupling a model's geometric representation power from its linguistic sensitivity. Our approach addresses the limitations of current 3D pipelines and enables high-fidelity semantic manipulation of out-of-distribution 3D shapes. Project webpage: https://daidedou.sorpi.fr/publication/beyondprompts

Além dos Prompts: Inversão 3D Incondicional para Formas Fora da Distribuição

Beyond Prompts: Unconditional 3D Inversion for Out-of-Distribution Shapes

Resumo

Support