Prox-E : Édition fine de formes 3D via des abstractions primitives

Résumé

Les modèles d'édition d'images 2D par texte ont récemment atteint un niveau de maturité impressionnant, motivant un nombre croissant de travaux qui dépendent fortement de ces modèles pour piloter des modifications 3D. Bien qu'efficaces pour les modifications basées sur l'apparence, ces pipelines d'édition 3D centrés sur la 2D peinent souvent avec l'édition 3D à granularité fine, où des changements structurels localisés doivent être appliqués tout en préservant strictement l'identité globale d'un objet. Pour résoudre cette limitation, nous proposons Prox-E, un cadre sans apprentissage qui permet un contrôle 3D fin grâce à une abstraction géométrique explicite basée sur des primitives. Notre framework abstrait d'abord une forme 3D d'entrée en un ensemble compact de primitives géométriques. Un modèle vision-langage (VLM) préentraîné édite ensuite cette abstraction pour spécifier des changements au niveau des primitives. Ces modifications structurelles sont ensuite utilisées pour guider un modèle génératif 3D, permettant des modifications localisées et fines tout en préservant les régions inchangées de la forme originale. Par des expériences approfondies, nous démontrons que notre méthode équilibre plus efficacement la préservation de l'identité, la qualité de la forme et la fidélité à l'instruction que diverses approches existantes, y compris les éditeurs 3D basés sur la 2D et les méthodes nécessitant un apprentissage.

English

Text-based 2D image editing models have recently reached an impressive level of maturity, motivating a growing body of work that heavily depends on these models to drive 3D edits. While effective for appearance-based modifications, such 2D-centric 3D editing pipelines often struggle with fine-grained 3D editing, where localized structural changes must be applied while strictly preserving an object's overall identity. To address this limitation, we propose Prox-E, a training-free framework that enables fine-grained 3D control through an explicit, primitive-based geometric abstraction. Our framework first abstracts an input 3D shape into a compact set of geometric primitives. A pretrained vision-language model (VLM) then edits this abstraction to specify primitive-level changes. These structural edits are subsequently used to guide a 3D generative model, enabling fine-grained, localized modifications while preserving unchanged regions of the original shape. Through extensive experiments, we demonstrate that our method consistently balances identity preservation, shape quality, and instruction fidelity more effectively than various existing approaches, including 2D-based 3D editors and training-based methods.

Prox-E : Édition fine de formes 3D via des abstractions primitives

Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions

Résumé

Support