Prox-E: Fijnmazige 3D-vormbewerking via op primitieven gebaseerde abstracties

Samenvatting

Op tekst gebaseerde 2D-beeldbewerkingsmodellen hebben recentelijk een indrukwekkend niveau van rijpheid bereikt, wat een groeiende hoeveelheid onderzoek motiveert die sterk afhankelijk is van deze modellen om 3D-bewerkingen aan te sturen. Hoewel ze effectief zijn voor op uiterlijk gebaseerde aanpassingen, hebben dergelijke 2D-centrische 3D-bewerkingspijplijnen vaak moeite met fijnmazige 3D-bewerkingen, waarbij gelokaliseerde structurele veranderingen moeten worden toegepast terwijl de algehele identiteit van een object strikt behouden blijft. Om deze beperking aan te pakken, stellen wij Prox-E voor, een trainingsvrij raamwerk dat fijnmazige 3D-controle mogelijk maakt door middel van een expliciete, op primitieven gebaseerde geometrische abstractie. Ons raamwerk abstraheert eerst een invoervorm in 3D naar een compacte set van geometrische primitieven. Een vooraf getraind vision-language model (VLM) bewerkt vervolgens deze abstractie om veranderingen op primitievenniveau te specificeren. Deze structurele bewerkingen worden vervolgens gebruikt om een generatief 3D-model aan te sturen, waardoor fijnmazige, gelokaliseerde aanpassingen mogelijk zijn terwijl ongewijzigde regio's van de oorspronkelijke vorm behouden blijven. Door middel van uitgebreide experimenten tonen we aan dat onze methode consistenter een balans vindt tussen identiteitsbehoud, vormkwaliteit en trouw aan de instructie dan verschillende bestaande benaderingen, waaronder op 2D gebaseerde 3D-editors en op training gebaseerde methoden.

English

Text-based 2D image editing models have recently reached an impressive level of maturity, motivating a growing body of work that heavily depends on these models to drive 3D edits. While effective for appearance-based modifications, such 2D-centric 3D editing pipelines often struggle with fine-grained 3D editing, where localized structural changes must be applied while strictly preserving an object's overall identity. To address this limitation, we propose Prox-E, a training-free framework that enables fine-grained 3D control through an explicit, primitive-based geometric abstraction. Our framework first abstracts an input 3D shape into a compact set of geometric primitives. A pretrained vision-language model (VLM) then edits this abstraction to specify primitive-level changes. These structural edits are subsequently used to guide a 3D generative model, enabling fine-grained, localized modifications while preserving unchanged regions of the original shape. Through extensive experiments, we demonstrate that our method consistently balances identity preservation, shape quality, and instruction fidelity more effectively than various existing approaches, including 2D-based 3D editors and training-based methods.

Prox-E: Fijnmazige 3D-vormbewerking via op primitieven gebaseerde abstracties

Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions

Samenvatting

Support