Arbor: Explizite geometrische Konditionierung für kontrollierbare 3D-Asset-Generierung

Zusammenfassung

Text- und bildgesteuerte 3D-Modelle erzeugen heute überzeugende Assets, bieten jedoch nur wenig direkte Kontrolle über den Raum, den ein Objekt einnehmen oder vermeiden soll. Bei der Erstellung ist diese räumliche Absicht oft schon vor dem Generierungsprozess bekannt. Ein Stuhl sollte in eine Sitzhülle passen, ein Requisit sollte Bewegungsspielraum lassen, oder ein Bauteil sollte eine Kontaktfläche freilegen. Textvorgaben und Bildansichten sind schlechte Träger für derartige Einschränkungen, was die Notwendigkeit einer expliziten Steuerungsschnittstelle schafft. Wir stellen Arbor vor, ein trainierbares Anhängsel für textgesteuerte latente 3D-Generierung. Arbor führt Constraint-Meshes als native 3D-Steuerungsschnittstelle ein. Die Schnittstelle nutzt Hüllregionen, in denen Geometrie vorhanden sein soll, Vermeidungsregionen, die leer bleiben sollen, und Berührungsregionen, die das Objekt kontaktieren soll. Anders als bei Vervollständigungen oder der Steuerung durch ein ganzes Objektgerüst sind diese Meshes keine Zielvorgaben. Es handelt sich um lokale, typisierte Anforderungen, die auch Regionen umfassen können, in denen keine Oberfläche erscheinen soll. Arbor bewahrt dieses Signal als Geometrie, indem es Constraint-Meshes in Tokens umwandelt und eine geleitete Anbindung innerhalb eines eingefrorenen Entrauschers lernt. So kann jede latente Region den Teil des Constraints erhalten, der für ihre räumliche Position relevant ist. Wir evaluieren Arbor anhand automatischer und von Künstlern kuratierter Steuerungs-Benchmarks mit Hüllen-, Vermeidungs- und Berührungs-Constraints und vergleichen die Metrik-Trends mit einer Benutzerpräferenzstudie. Selbst ohne dedizierte Einhaltungsverluste verbessert Arbor die Constraint-Erfüllung, während Objektqualität und -variation unter festen Constraints erhalten bleiben.

English

Text and image conditioned 3D models now generate convincing assets, but they still offer little direct control over the space an object should occupy or avoid. In authoring, this spatial intent is often known before generation starts. A chair should fit a seating envelope, a prop should leave clearance for motion, or a part should expose a contact surface. Prompts and image views are poor carriers for such constraints, requiring the need for an explicit control interface. We present Arbor, a trainable attachment for text conditioned latent 3D generation. Arbor introduces constraint meshes as a native 3D control interface. The interface uses hull regions where geometry should exist, avoidance regions that should remain empty, and touch regions the object should contact. Unlike completion or whole object scaffold control, these meshes are not target evidence. They are local typed requirements and can include regions where no surface should appear. Arbor keeps this signal as geometry by converting constraint meshes into tokens and learning a routed attachment inside a frozen denoiser. Each latent region can therefore receive the part of the constraint that matters for its spatial location. We evaluate Arbor on automatic and artist curated control benchmarks with hull, avoidance, and touch constraints, and compare the metric trends to a user preference study. Even without dedicated compliance losses, Arbor improves constraint obedience while preserving object quality and variation under fixed constraints.