Prox-E: Тонкое редактирование 3D-форм с помощью примитивных абстракций

Аннотация

Модели редактирования двумерных изображений на основе текста в последнее время достигли впечатляющей зрелости, что стимулирует растущее число работ, в значительной степени зависящих от этих моделей для выполнения трехмерного редактирования. Хотя такие 2D-ориентированные конвейеры 3D-редактирования эффективны для модификаций внешнего вида, они часто испытывают трудности с детализированным 3D-редактированием, где необходимо применять локализованные структурные изменения при строгом сохранении общей идентичности объекта. Чтобы устранить это ограничение, мы предлагаем Prox-E — не требующую обучения систему, которая обеспечивает детализированный трехмерный контроль через явную геометрическую абстракцию на основе примитивов. Наша система сначала абстрагирует исходную 3D-форму в компактный набор геометрических примитивов. Затем предварительно обученная визуально-языковая модель (VLM) редактирует эту абстракцию, чтобы задать изменения на уровне примитивов. Эти структурные правки впоследствии используются для управления генеративной 3D-моделью, что позволяет выполнять детализированные локализованные модификации при сохранении неизмененных областей исходной формы. В ходе обширных экспериментов мы демонстрируем, что наш метод последовательно балансирует сохранение идентичности, качество формы и соответствие инструкциям более эффективно, чем различные существующие подходы, включая 2D-ориентированные 3D-редакторы и методы, требующие обучения.

English

Text-based 2D image editing models have recently reached an impressive level of maturity, motivating a growing body of work that heavily depends on these models to drive 3D edits. While effective for appearance-based modifications, such 2D-centric 3D editing pipelines often struggle with fine-grained 3D editing, where localized structural changes must be applied while strictly preserving an object's overall identity. To address this limitation, we propose Prox-E, a training-free framework that enables fine-grained 3D control through an explicit, primitive-based geometric abstraction. Our framework first abstracts an input 3D shape into a compact set of geometric primitives. A pretrained vision-language model (VLM) then edits this abstraction to specify primitive-level changes. These structural edits are subsequently used to guide a 3D generative model, enabling fine-grained, localized modifications while preserving unchanged regions of the original shape. Through extensive experiments, we demonstrate that our method consistently balances identity preservation, shape quality, and instruction fidelity more effectively than various existing approaches, including 2D-based 3D editors and training-based methods.

Prox-E: Тонкое редактирование 3D-форм с помощью примитивных абстракций

Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions

Аннотация

Support