Arbor : Conditionnement géométrique explicite pour la génération contrôlable d’actifs 3D

Résumé

Les modèles 3D conditionnés par du texte et des images génèrent désormais des actifs convaincants, mais ils offrent encore peu de contrôle direct sur l'espace qu'un objet doit occuper ou éviter. Dans le processus de conception, cette intention spatiale est souvent connue avant le début de la génération. Une chaise doit s'inscrire dans une enveloppe d'assise, un accessoire doit dégager un espace pour le mouvement, ou une pièce doit exposer une surface de contact. Les invites et les vues d'images sont de piètres vecteurs pour de telles contraintes, ce qui nécessite une interface de contrôle explicite. Nous présentons Arbor, un module entraînable se greffant à la génération 3D latente conditionnée par le texte. Arbor introduit les maillages de contrainte en tant qu'interface de contrôle 3D native. L'interface utilise des régions d'enveloppe où la géométrie doit exister, des régions d'évitement qui doivent rester vides, et des régions de contact que l'objet doit toucher. Contrairement au contrôle par complétion ou par échafaudage d'objet entier, ces maillages ne constituent pas des preuves cibles. Ce sont des exigences typées locales et peuvent inclure des régions où aucune surface ne doit apparaître. Arbor conserve ce signal en tant que géométrie en convertissant les maillages de contrainte en jetons et en apprenant un attachement routé à l'intérieur d'un débruitseur gelé. Chaque région latente peut ainsi recevoir la partie de la contrainte pertinente pour son emplacement spatial. Nous évaluons Arbor sur des benchmarks de contrôle automatiques et élaborés par des artistes avec des contraintes d'enveloppe, d'évitement et de contact, et comparons les tendances des métriques à une étude de préférence utilisateur. Même sans pertes de conformité dédiées, Arbor améliore l'obéissance aux contraintes tout en préservant la qualité et la variation des objets sous des contraintes fixées.

English

Text and image conditioned 3D models now generate convincing assets, but they still offer little direct control over the space an object should occupy or avoid. In authoring, this spatial intent is often known before generation starts. A chair should fit a seating envelope, a prop should leave clearance for motion, or a part should expose a contact surface. Prompts and image views are poor carriers for such constraints, requiring the need for an explicit control interface. We present Arbor, a trainable attachment for text conditioned latent 3D generation. Arbor introduces constraint meshes as a native 3D control interface. The interface uses hull regions where geometry should exist, avoidance regions that should remain empty, and touch regions the object should contact. Unlike completion or whole object scaffold control, these meshes are not target evidence. They are local typed requirements and can include regions where no surface should appear. Arbor keeps this signal as geometry by converting constraint meshes into tokens and learning a routed attachment inside a frozen denoiser. Each latent region can therefore receive the part of the constraint that matters for its spatial location. We evaluate Arbor on automatic and artist curated control benchmarks with hull, avoidance, and touch constraints, and compare the metric trends to a user preference study. Even without dedicated compliance losses, Arbor improves constraint obedience while preserving object quality and variation under fixed constraints.