Arbor: Явное геометрическое обуславливание для управляемой генерации 3D-объектов

Аннотация

Текстово и изображенчески обусловленные 3D-модели теперь создают убедительные объекты, но всё ещё предоставляют мало прямого контроля над пространством, которое объект должен занимать или избегать. При авторской разработке этот пространственный замысел часто известен ещё до начала генерации. Стул должен вписываться в посадочную оболочку, реквизит должен оставлять зазор для движения, а деталь должна обеспечивать контактную поверхность. Текстовые подсказки и виды изображений плохо подходят для передачи таких ограничений, что требует явного интерфейса управления. Мы представляем Arbor — обучаемое дополнение для текстово обусловленной латентной 3D-генерации. Arbor вводит сетки ограничений в качестве собственного 3D-интерфейса управления. Интерфейс использует области оболочки, где должна существовать геометрия, области избегания, которые должны оставаться пустыми, и области касания, с которыми объект должен контактировать. В отличие от завершения или управления всем каркасом объекта, эти сетки не являются целевыми свидетельствами. Это локальные типизированные требования, которые могут включать области, где не должно быть поверхности. Arbor сохраняет этот сигнал как геометрию, преобразуя сетки ограничений в токены и обучая маршрутизированное дополнение внутри замороженного денойзера. Таким образом, каждая латентная область может получить ту часть ограничения, которая значима для её пространственного расположения. Мы оцениваем Arbor на автоматических и созданных художниками контрольных тестах с ограничениями оболочки, избегания и касания, а также сравниваем тренды метрик с исследованием пользовательских предпочтений. Даже без специальных функций потерь для соблюдения ограничений Arbor улучшает их выполнение, сохраняя качество объектов и их разнообразие при фиксированных ограничениях.

English

Text and image conditioned 3D models now generate convincing assets, but they still offer little direct control over the space an object should occupy or avoid. In authoring, this spatial intent is often known before generation starts. A chair should fit a seating envelope, a prop should leave clearance for motion, or a part should expose a contact surface. Prompts and image views are poor carriers for such constraints, requiring the need for an explicit control interface. We present Arbor, a trainable attachment for text conditioned latent 3D generation. Arbor introduces constraint meshes as a native 3D control interface. The interface uses hull regions where geometry should exist, avoidance regions that should remain empty, and touch regions the object should contact. Unlike completion or whole object scaffold control, these meshes are not target evidence. They are local typed requirements and can include regions where no surface should appear. Arbor keeps this signal as geometry by converting constraint meshes into tokens and learning a routed attachment inside a frozen denoiser. Each latent region can therefore receive the part of the constraint that matters for its spatial location. We evaluate Arbor on automatic and artist curated control benchmarks with hull, avoidance, and touch constraints, and compare the metric trends to a user preference study. Even without dedicated compliance losses, Arbor improves constraint obedience while preserving object quality and variation under fixed constraints.