Arbor: Expliciete geometrische conditionering voor controleerbare 3D-assetgeneratie

Samenvatting

Tekst- en beeldgeconditioneerde 3D-modellen genereren nu overtuigende assets, maar bieden nog steeds weinig directe controle over de ruimte die een object moet innemen of vermijden. Bij het ontwerpen is deze ruimtelijke intentie vaak bekend voordat de generatie begint. Een stoel moet in een zitomhulsel passen, een rekwisiet moet speling laten voor beweging, of een onderdeel moet een contactoppervlak blootleggen. Prompts en beeldweergaven zijn slechte dragers voor dergelijke beperkingen, wat de noodzaak van een expliciete controles-interface benadrukt. We presenteren Arbor, een trainbare toevoeging voor tekstgeconditioneerde latente 3D-generatie. Arbor introduceert constraint-meshes als een native 3D-controle-interface. De interface gebruikt hull-regio's waar geometrie moet bestaan, vermijdingsregio's die leeg moeten blijven, en aanraakregio's waarmee het object contact moet maken. In tegenstelling tot completie of gehele-object-steigercontrole zijn deze meshes geen doeleind-bewijs. Het zijn lokale getypeerde vereisten en kunnen regio's omvatten waar geen oppervlak mag verschijnen. Arbor behoudt dit signaal als geometrie door constraint-meshes om te zetten in tokens en een gerouteerde toevoeging te leren binnen een bevroren denoiser. Elke latente regio kan daardoor het deel van de constraint ontvangen dat relevant is voor zijn ruimtelijke locatie. We evalueren Arbor op automatische en door kunstenaars samengestelde controle-benchmarks met hull-, vermijdings- en aanraakbeperkingen, en vergelijken de metrische trends met een gebruikersvoorkeursstudie. Zelfs zonder speciale nalevingsverliezen verbetert Arbor de naleving van beperkingen terwijl de objectkwaliteit en variatie onder vaste beperkingen behouden blijven.

English

Text and image conditioned 3D models now generate convincing assets, but they still offer little direct control over the space an object should occupy or avoid. In authoring, this spatial intent is often known before generation starts. A chair should fit a seating envelope, a prop should leave clearance for motion, or a part should expose a contact surface. Prompts and image views are poor carriers for such constraints, requiring the need for an explicit control interface. We present Arbor, a trainable attachment for text conditioned latent 3D generation. Arbor introduces constraint meshes as a native 3D control interface. The interface uses hull regions where geometry should exist, avoidance regions that should remain empty, and touch regions the object should contact. Unlike completion or whole object scaffold control, these meshes are not target evidence. They are local typed requirements and can include regions where no surface should appear. Arbor keeps this signal as geometry by converting constraint meshes into tokens and learning a routed attachment inside a frozen denoiser. Each latent region can therefore receive the part of the constraint that matters for its spatial location. We evaluate Arbor on automatic and artist curated control benchmarks with hull, avoidance, and touch constraints, and compare the metric trends to a user preference study. Even without dedicated compliance losses, Arbor improves constraint obedience while preserving object quality and variation under fixed constraints.