За пределами промптов: Безусловная 3D-инверсия для форм вне распределения
Beyond Prompts: Unconditional 3D Inversion for Out-of-Distribution Shapes
April 16, 2026
Авторы: Victoria Yue Chen, Emery Pierson, Léopold Maillard, Maks Ovsjanikov
cs.AI
Аннотация
Текстовая инверсия генеративных моделей является ключевой парадигмой для манипуляции 2D- или 3D-контентом, открывая множество приложений, таких как текстовое редактирование, перенос стиля или решение обратных задач. Однако она основывается на предположении, что генеративные модели сохраняют чувствительность к естественно-языковым промптам. Мы показываем, что для современных нативных моделей генерации 3D-объектов по тексту это предположение часто нарушается. Мы выявляем критический режим сбоя, при котором траектории генерации попадают в латентные «ловушки-стоки»: области, где модель становится нечувствительной к модификациям промпта. В этих режимах изменения входного текста не приводят к модификации внутренних представлений, способной изменить выходную геометрию. Важно отметить, что это не является ограничением геометрической выразительности модели: одни и те же генеративные модели способны продуцировать огромное разнообразие форм, но, как мы демонстрируем, теряют чувствительность к текстовым указаниям за пределами распределения данных. Мы исследуем это поведение, анализируя траектории сэмплирования генеративной модели, и обнаруживаем, что сложные геометрии всё ещё могут быть представлены и созданы за счёт использования безусловного генеративного априори модели. Это приводит к созданию более устойчивой框架 для текстового редактирования 3D-форм, которая обходит латентные стоки за счёт разделения геометрической репрезентативной способности модели и её лингвистической чувствительности. Наш подход устраняет ограничения современных 3D-пайплайнов и позволяет осуществлять высококачественную семантическую манипуляцию 3D-формами за пределами распределения данных. Страница проекта: https://daidedou.sorpi.fr/publication/beyondprompts
English
Text-driven inversion of generative models is a core paradigm for manipulating 2D or 3D content, unlocking numerous applications such as text-based editing, style transfer, or inverse problems. However, it relies on the assumption that generative models remain sensitive to natural language prompts. We demonstrate that for state-of-the-art native text-to-3D generative models, this assumption often collapses. We identify a critical failure mode where generation trajectories are drawn into latent ``sink traps'': regions where the model becomes insensitive to prompt modifications. In these regimes, changes to the input text fail to alter internal representations in a way that alters the output geometry. Crucially, we observe that this is not a limitation of the model's geometric expressivity; the same generative models possess the ability to produce a vast diversity of shapes but, as we demonstrate, become insensitive to out-of-distribution text guidance. We investigate this behavior by analyzing the sampling trajectories of the generative model, and find that complex geometries can still be represented and produced by leveraging the model's unconditional generative prior. This leads to a more robust framework for text-based 3D shape editing that bypasses latent sinks by decoupling a model's geometric representation power from its linguistic sensitivity. Our approach addresses the limitations of current 3D pipelines and enables high-fidelity semantic manipulation of out-of-distribution 3D shapes. Project webpage: https://daidedou.sorpi.fr/publication/beyondprompts