Jenseits von Prompts: Unbedingte 3D-Inversion für außerhalb der Verteilung liegende Formen

Zusammenfassung

Die textgesteuerte Inversion generativer Modelle ist ein zentrales Paradigma zur Manipulation von 2D- oder 3D-Inhalten, das zahlreiche Anwendungen wie textbasiertes Editieren, Stiltransfer oder inverse Probleme ermöglicht. Allerdings beruht sie auf der Annahme, dass generative Modelle empfindlich auf natürliche Sprachbefehle reagieren. Wir zeigen, dass diese Annahme bei modernen nativen Text-zu-3D-generativen Modellen häufig zusammenbricht. Wir identifizieren einen kritischen Fehlermodus, bei dem Erzeugungspfade in latente „Sinkfallen“ gezogen werden: Regionen, in denen das Modell unempfindlich gegenüber Prompt-Modifikationen wird. In diesen Zuständen führen Änderungen des Eingabetextes nicht zu Modifikationen der internen Repräsentationen, die die Ausgabegemetrie verändern würden. Entscheidend ist, dass wir feststellen, dass dies keine Einschränkung der geometrischen Ausdrucksfähigkeit des Modells ist; dieselben generativen Modelle sind durchaus in der Lage, eine große Vielfalt von Formen zu erzeugen, werden aber, wie wir zeigen, unempfindlich gegenüber Textanweisungen außerhalb der Trainingsverteilung. Wir untersuchen dieses Verhalten durch Analyse der Sampling-Pfade des generativen Modells und finden, dass komplexe Geometrien dennoch darstellbar und erzeugbar sind, indem der unbedingte generative Prior des Modells genutzt wird. Dies führt zu einem robusteren Framework für textbasiertes 3D-Form-Editing, das latente Fallen umgeht, indem die geometrische Darstellungsleistung eines Modells von seiner linguistischen Sensitivität entkoppelt wird. Unser Ansatz adressiert die Limitierungen aktueller 3D-Pipelines und ermöglicht hochpräzise semantische Manipulation von 3D-Formen außerhalb der Trainingsverteilung. Projektwebseite: https://daidedou.sorpi.fr/publication/beyondprompts

English

Text-driven inversion of generative models is a core paradigm for manipulating 2D or 3D content, unlocking numerous applications such as text-based editing, style transfer, or inverse problems. However, it relies on the assumption that generative models remain sensitive to natural language prompts. We demonstrate that for state-of-the-art native text-to-3D generative models, this assumption often collapses. We identify a critical failure mode where generation trajectories are drawn into latent ``sink traps'': regions where the model becomes insensitive to prompt modifications. In these regimes, changes to the input text fail to alter internal representations in a way that alters the output geometry. Crucially, we observe that this is not a limitation of the model's geometric expressivity; the same generative models possess the ability to produce a vast diversity of shapes but, as we demonstrate, become insensitive to out-of-distribution text guidance. We investigate this behavior by analyzing the sampling trajectories of the generative model, and find that complex geometries can still be represented and produced by leveraging the model's unconditional generative prior. This leads to a more robust framework for text-based 3D shape editing that bypasses latent sinks by decoupling a model's geometric representation power from its linguistic sensitivity. Our approach addresses the limitations of current 3D pipelines and enables high-fidelity semantic manipulation of out-of-distribution 3D shapes. Project webpage: https://daidedou.sorpi.fr/publication/beyondprompts

Jenseits von Prompts: Unbedingte 3D-Inversion für außerhalb der Verteilung liegende Formen

Beyond Prompts: Unconditional 3D Inversion for Out-of-Distribution Shapes

Zusammenfassung

Support