Prox-E: Edición Detallada de Formas 3D mediante Abstracciones Basadas en Primitivas

Resumen

Los modelos de edición de imágenes 2D basados en texto han alcanzado recientemente un nivel de madurez impresionante, lo que motiva un creciente cuerpo de trabajo que depende en gran medida de estos modelos para impulsar ediciones 3D. Si bien son efectivos para modificaciones basadas en apariencia, estos flujos de trabajo de edición 3D centrados en 2D a menudo tienen dificultades con la edición 3D de grano fino, donde se deben aplicar cambios estructurales localizados preservando estrictamente la identidad general de un objeto. Para abordar esta limitación, proponemos Prox-E, un marco de trabajo que no requiere entrenamiento y permite un control 3D de grano fino mediante una abstracción geométrica explícita basada en primitivas. Nuestro marco primero abstrae una forma 3D de entrada en un conjunto compacto de primitivas geométricas. Un modelo de visión y lenguaje (VLM) preentrenado luego edita esta abstracción para especificar cambios a nivel de primitiva. Estas ediciones estructurales se utilizan posteriormente para guiar un modelo generativo 3D, permitiendo modificaciones localizadas y de grano fino mientras se preservan las regiones inalteradas de la forma original. A través de experimentos exhaustivos, demostramos que nuestro método equilibra de manera más consistente la preservación de la identidad, la calidad de la forma y la fidelidad a la instrucción en comparación con varios enfoques existentes, incluidos editores 3D basados en 2D y métodos que requieren entrenamiento.

English

Text-based 2D image editing models have recently reached an impressive level of maturity, motivating a growing body of work that heavily depends on these models to drive 3D edits. While effective for appearance-based modifications, such 2D-centric 3D editing pipelines often struggle with fine-grained 3D editing, where localized structural changes must be applied while strictly preserving an object's overall identity. To address this limitation, we propose Prox-E, a training-free framework that enables fine-grained 3D control through an explicit, primitive-based geometric abstraction. Our framework first abstracts an input 3D shape into a compact set of geometric primitives. A pretrained vision-language model (VLM) then edits this abstraction to specify primitive-level changes. These structural edits are subsequently used to guide a 3D generative model, enabling fine-grained, localized modifications while preserving unchanged regions of the original shape. Through extensive experiments, we demonstrate that our method consistently balances identity preservation, shape quality, and instruction fidelity more effectively than various existing approaches, including 2D-based 3D editors and training-based methods.

Prox-E: Edición Detallada de Formas 3D mediante Abstracciones Basadas en Primitivas

Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions

Resumen

Support