Prox-E: Fein granulierte 3D-Formbearbeitung durch primitivebasierte Abstraktionen

Zusammenfassung

Textbasierte 2D-Bildbearbeitungsmodelle haben in letzter Zeit ein beeindruckendes Reifegrad erreicht, was eine wachsende Anzahl von Arbeiten motiviert, die stark auf diesen Modellen aufbauen, um 3D-Bearbeitungen anzutreiben. Während sie für erscheinungsbasierte Modifikationen effektiv sind, haben solche 2D-zentrierten 3D-Bearbeitungspipelines oft Schwierigkeiten mit fein granularen 3D-Bearbeitungen, bei denen lokalisierte strukturelle Änderungen vorgenommen werden müssen, während die Gesamtidentität eines Objekts strikt erhalten bleibt. Um diese Einschränkung zu adressieren, schlagen wir Prox-E vor, ein trainierungsfreies Framework, das eine fein granulare 3D-Steuerung durch eine explizite, primitivbasierte geometrische Abstraktion ermöglicht. Unser Framework abstrahiert zunächst eine Eingabe-3D-Form in einen kompakten Satz geometrischer Primitive. Ein vortrainiertes Vision-Language-Model (VLM) bearbeitet dann diese Abstraktion, um primitivebene Änderungen zu spezifizieren. Diese strukturellen Bearbeitungen werden anschließend genutzt, um ein 3D-Generativmodell zu steuern, was fein granulare, lokalisierte Modifikationen ermöglicht, während unveränderte Bereiche der Originalform erhalten bleiben. Durch umfangreiche Experimente zeigen wir, dass unsere Methode konsistent die Identitätserhaltung, Formqualität und Befehls treue effektiver ausbalanciert als verschiedene bestehende Ansätze, einschließlich 2D-basierter 3D-Editoren und trainierungsbasierter Methoden.

English

Text-based 2D image editing models have recently reached an impressive level of maturity, motivating a growing body of work that heavily depends on these models to drive 3D edits. While effective for appearance-based modifications, such 2D-centric 3D editing pipelines often struggle with fine-grained 3D editing, where localized structural changes must be applied while strictly preserving an object's overall identity. To address this limitation, we propose Prox-E, a training-free framework that enables fine-grained 3D control through an explicit, primitive-based geometric abstraction. Our framework first abstracts an input 3D shape into a compact set of geometric primitives. A pretrained vision-language model (VLM) then edits this abstraction to specify primitive-level changes. These structural edits are subsequently used to guide a 3D generative model, enabling fine-grained, localized modifications while preserving unchanged regions of the original shape. Through extensive experiments, we demonstrate that our method consistently balances identity preservation, shape quality, and instruction fidelity more effectively than various existing approaches, including 2D-based 3D editors and training-based methods.

Prox-E: Fein granulierte 3D-Formbearbeitung durch primitivebasierte Abstraktionen

Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions

Zusammenfassung

Support