Arbor: Condicionamiento Geométrico Explícito para la Generación Controlable de Activos 3D

Resumen

Los modelos de generación 3D condicionados por texto e imagen ahora producen activos convincentes, pero aún ofrecen poco control directo sobre el espacio que un objeto debe ocupar o evitar. En la creación, esta intención espacial suele conocerse antes de iniciar la generación. Una silla debe ajustarse a un volumen de asiento, un accesorio debe dejar espacio para el movimiento, o una pieza debe exponer una superficie de contacto. Las indicaciones textuales y las vistas de imagen son portadores deficientes para tales restricciones, lo que requiere una interfaz de control explícita. Presentamos Arbor, un componente entrenable para la generación latente 3D condicionada por texto. Arbor introduce las mallas de restricción como una interfaz de control 3D nativa. La interfaz utiliza regiones de volumen donde debe existir geometría, regiones de evitación que deben permanecer vacías y regiones de contacto que el objeto debe tocar. A diferencia del completado o del control con andamios de objetos completos, estas mallas no son evidencia objetivo. Son requisitos tipificados locales y pueden incluir regiones donde no debe aparecer ninguna superficie. Arbor mantiene esta señal como geometría convirtiendo las mallas de restricción en tokens y aprendiendo una conexión enrutada dentro de un eliminador de ruido congelado. Cada región latente puede así recibir la parte de la restricción que es relevante para su ubicación espacial. Evaluamos Arbor en puntos de referencia de control automáticos y curados por artistas con restricciones de volumen, evitación y contacto, y comparamos las tendencias de las métricas con un estudio de preferencia del usuario. Incluso sin pérdidas de cumplimiento dedicadas, Arbor mejora la obediencia a las restricciones mientras preserva la calidad y variación del objeto bajo restricciones fijas.

English

Text and image conditioned 3D models now generate convincing assets, but they still offer little direct control over the space an object should occupy or avoid. In authoring, this spatial intent is often known before generation starts. A chair should fit a seating envelope, a prop should leave clearance for motion, or a part should expose a contact surface. Prompts and image views are poor carriers for such constraints, requiring the need for an explicit control interface. We present Arbor, a trainable attachment for text conditioned latent 3D generation. Arbor introduces constraint meshes as a native 3D control interface. The interface uses hull regions where geometry should exist, avoidance regions that should remain empty, and touch regions the object should contact. Unlike completion or whole object scaffold control, these meshes are not target evidence. They are local typed requirements and can include regions where no surface should appear. Arbor keeps this signal as geometry by converting constraint meshes into tokens and learning a routed attachment inside a frozen denoiser. Each latent region can therefore receive the part of the constraint that matters for its spatial location. We evaluate Arbor on automatic and artist curated control benchmarks with hull, avoidance, and touch constraints, and compare the metric trends to a user preference study. Even without dedicated compliance losses, Arbor improves constraint obedience while preserving object quality and variation under fixed constraints.