プロンプトを超えて:分布外形状に対する無条件3D反転
Beyond Prompts: Unconditional 3D Inversion for Out-of-Distribution Shapes
April 16, 2026
著者: Victoria Yue Chen, Emery Pierson, Léopold Maillard, Maks Ovsjanikov
cs.AI
要旨
生成的モデルを用いたテキスト駆動逆変換は、2Dまたは3Dコンテンツを操作するための核心的なパラダイムであり、テキストベース編集、スタイル転送、逆問題解決などの数多くの応用を可能にする。しかし、これは生成的モデルが自然言語プロンプトに対して感応性を維持するという前提に依存している。我々は、最先端のネイティブなテキスト-to-3D生成的モデルにおいて、この前提がしばしば崩壊することを実証する。生成軌道が潜在的な「シンクトラップ」に引き込まれる重大な失敗モードを特定した。この領域では、モデルはプロンプト変更に対して感応性を失い、入力テキストの変更が出力形状を変化させるような内部表現の変更を引き起こさなくなる。決定的に、これはモデルの幾何学的表現力の限界ではないことを確認した。同一の生成的モデルは多様な形状を生成する能力を有するが、分布外のテキスト誘導に対して感応性を失うことを実証する。生成的モデルのサンプリング軌道を分析することでこの挙動を調査し、モデルの無条件生成的事前分布を活用することで複雑な幾何形状が依然として表現・生成可能であることを明らかにする。これにより、モデルの幾何学的表現力と言語的感応性を分離して潜在的なシンクを回避する、より頑健なテキストベース3D形状編集フレームワークを導出する。本手法は現行の3Dパイプラインの限界に対処し、分布外3D形状の高精度な意味的操作を実現する。プロジェクトWebページ: https://daidedou.sorpi.fr/publication/beyondprompts
English
Text-driven inversion of generative models is a core paradigm for manipulating 2D or 3D content, unlocking numerous applications such as text-based editing, style transfer, or inverse problems. However, it relies on the assumption that generative models remain sensitive to natural language prompts. We demonstrate that for state-of-the-art native text-to-3D generative models, this assumption often collapses. We identify a critical failure mode where generation trajectories are drawn into latent ``sink traps'': regions where the model becomes insensitive to prompt modifications. In these regimes, changes to the input text fail to alter internal representations in a way that alters the output geometry. Crucially, we observe that this is not a limitation of the model's geometric expressivity; the same generative models possess the ability to produce a vast diversity of shapes but, as we demonstrate, become insensitive to out-of-distribution text guidance. We investigate this behavior by analyzing the sampling trajectories of the generative model, and find that complex geometries can still be represented and produced by leveraging the model's unconditional generative prior. This leads to a more robust framework for text-based 3D shape editing that bypasses latent sinks by decoupling a model's geometric representation power from its linguistic sensitivity. Our approach addresses the limitations of current 3D pipelines and enables high-fidelity semantic manipulation of out-of-distribution 3D shapes. Project webpage: https://daidedou.sorpi.fr/publication/beyondprompts