프롬프트를 넘어서: 분포 외 형태를 위한 무조건 3D 인버전
Beyond Prompts: Unconditional 3D Inversion for Out-of-Distribution Shapes
April 16, 2026
저자: Victoria Yue Chen, Emery Pierson, Léopold Maillard, Maks Ovsjanikov
cs.AI
초록
생성 모델의 텍스트 기반 역변환은 2D 또는 3D 콘텐츠를 조작하는 핵심 패러다임으로, 텍스트 기반 편집, 스타일 변환, 역문제 등 다양한 응용 분야를 가능하게 합니다. 그러나 이 방법은 생성 모델이 자연어 프롬프트에 지속적으로 민감하게 반응한다는 가정에 의존합니다. 우리는 최신 네이티브 텍스트-3D 생성 모델에서 이 가정이 종종 붕괴된다는 사실을 입증합니다. 우리는 생성 궤적이 잠재 공간 내 '싱크 트랩'—모델이 프롬프트 수정에 무감각해지는 영역—으로 끌려가는 중요한 오류 모드를 규명합니다. 이러한 영역에서는 입력 텍스트를 변경해도 출력 형상을 변화시킬 만큼 내부 표현이 바뀌지 않습니다. 결정적으로, 이는 모델의 형상 표현 능력의 한계가 아닙니다. 동일한 생성 모델이 다양한 형상을 생성할 수 있는 잠재력을 보유함에도 불구하고, 분포 외 텍스트 지시에 대해 무감각해짐을 실험으로 확인했습니다. 우리는 생성 모델의 샘플링 궤적을 분석하여 이 현상을 조사했으며, 모델의 무조건적 생성 사전 분포를 활용하면 복잡한 형상이 여전히 표현 및 생성될 수 있음을 발견했습니다. 이를 통해 모델의 형상 표현 능력과 언어적 민감도를 분리하여 잠재적 싱크를 회피하는 보다 견고한 텍스트 기반 3D 형상 편집 프레임워크를 제시합니다. 우리의 접근 방식은 기존 3D 파이프라인의 한계를 해결하고 분포 외 3D 형상에 대한 고품질 의미론적 조작을 가능하게 합니다. 프로젝트 웹페이지: https://daidedou.sorpi.fr/publication/beyondprompts
English
Text-driven inversion of generative models is a core paradigm for manipulating 2D or 3D content, unlocking numerous applications such as text-based editing, style transfer, or inverse problems. However, it relies on the assumption that generative models remain sensitive to natural language prompts. We demonstrate that for state-of-the-art native text-to-3D generative models, this assumption often collapses. We identify a critical failure mode where generation trajectories are drawn into latent ``sink traps'': regions where the model becomes insensitive to prompt modifications. In these regimes, changes to the input text fail to alter internal representations in a way that alters the output geometry. Crucially, we observe that this is not a limitation of the model's geometric expressivity; the same generative models possess the ability to produce a vast diversity of shapes but, as we demonstrate, become insensitive to out-of-distribution text guidance. We investigate this behavior by analyzing the sampling trajectories of the generative model, and find that complex geometries can still be represented and produced by leveraging the model's unconditional generative prior. This leads to a more robust framework for text-based 3D shape editing that bypasses latent sinks by decoupling a model's geometric representation power from its linguistic sensitivity. Our approach addresses the limitations of current 3D pipelines and enables high-fidelity semantic manipulation of out-of-distribution 3D shapes. Project webpage: https://daidedou.sorpi.fr/publication/beyondprompts