ChatPaper.aiChatPaper

Arbor: 明示的な幾何学的条件付けによる制御可能な3Dアセット生成

Arbor: Explicit Geometric Conditioning for Controllable 3D Asset Generation

June 22, 2026
著者: Jan-Niklas Dihlmann, Andreas Engelhardt, Simon Donne, Hendrik P. A. Lensch, Mark Boss
cs.AI

要旨

テキストと画像に条件付けられた3Dモデルは、現在では説得力のあるアセットを生成できるようになったが、オブジェクトが占有すべき空間や避けるべき空間に対する直接的な制御は依然としてほとんど提供されていない。オーサリングにおいて、このような空間的な意図は生成が始まる前に既に把握されていることが多い。椅子は着座用の包絡領域に収まるべきであり、小道具は動作のためのクリアランスを確保すべきであり、部品は接触面を露出すべきである。プロンプトや画像ビューはこのような制約を伝えるには不十分であり、明示的な制御インターフェースが必要となる。 本稿では、テキスト条件付き潜在3D生成のための学習可能なアタッチメントであるArborを提案する。Arborは、制約メッシュをネイティブな3D制御インターフェースとして導入する。このインターフェースは、幾何形状が存在すべきハル領域、空のままであるべき回避領域、オブジェクトが接触すべき接触領域を用いる。補完やオブジェクト全体のスキャフォールド制御とは異なり、これらのメッシュは目標となる証拠ではない。これらは局所的な型付き要求であり、表面が現れてはならない領域を含むことができる。Arborは、制約メッシュをトークンに変換し、凍結されたデノイザー内部でルーティング付きアタッチメントを学習することで、この信号を幾何形状として保持する。これにより、各潜在領域はその空間位置に関係する制約の部分を受け取ることができる。 Arborを、ハル・回避・接触の各制約を用いた自動およびアーティスト選定の制御ベンチマークで評価し、メトリクスの傾向をユーザー嗜好調査と比較した。専用のコンプライアンス損失がなくても、Arborは固定された制約下でオブジェクトの品質と多様性を維持しつつ、制約遵守を改善する。
English
Text and image conditioned 3D models now generate convincing assets, but they still offer little direct control over the space an object should occupy or avoid. In authoring, this spatial intent is often known before generation starts. A chair should fit a seating envelope, a prop should leave clearance for motion, or a part should expose a contact surface. Prompts and image views are poor carriers for such constraints, requiring the need for an explicit control interface. We present Arbor, a trainable attachment for text conditioned latent 3D generation. Arbor introduces constraint meshes as a native 3D control interface. The interface uses hull regions where geometry should exist, avoidance regions that should remain empty, and touch regions the object should contact. Unlike completion or whole object scaffold control, these meshes are not target evidence. They are local typed requirements and can include regions where no surface should appear. Arbor keeps this signal as geometry by converting constraint meshes into tokens and learning a routed attachment inside a frozen denoiser. Each latent region can therefore receive the part of the constraint that matters for its spatial location. We evaluate Arbor on automatic and artist curated control benchmarks with hull, avoidance, and touch constraints, and compare the metric trends to a user preference study. Even without dedicated compliance losses, Arbor improves constraint obedience while preserving object quality and variation under fixed constraints.