ChatPaper.aiChatPaper

Arbor: 제어 가능한 3D 자산 생성을 위한 명시적 기하학적 조건화

Arbor: Explicit Geometric Conditioning for Controllable 3D Asset Generation

June 22, 2026
저자: Jan-Niklas Dihlmann, Andreas Engelhardt, Simon Donne, Hendrik P. A. Lensch, Mark Boss
cs.AI

초록

텍스트와 이미지 조건부 3D 모델은 이제 설득력 있는 에셋을 생성할 수 있지만, 객체가 차지하거나 회피해야 할 공간에 대한 직접적인 제어는 여전히 부족하다. 제작 과정에서 이러한 공간적 의도는 종종 생성이 시작되기 전에 알려져 있다. 의자는 착석 공간에 맞아야 하고, 소품은 움직임을 위한 여유 공간을 확보해야 하며, 부품은 접촉 표면을 노출해야 한다. 프롬프트와 이미지 뷰는 이러한 제약 조건을 전달하기에 부적합하여 명시적인 제어 인터페이스가 필요하다. 본 논문에서는 텍스트 조건부 잠재 3D 생성을 위한 훈련 가능한 부착 모듈인 Arbor를 제시한다. Arbor는 제약 메시를 네이티브 3D 제어 인터페이스로 도입한다. 이 인터페이스는 형상이 존재해야 하는 헐 영역, 비어 있어야 하는 회피 영역, 객체가 접촉해야 하는 터치 영역을 사용한다. 완성 또는 전체 객체 스캐폴드 제어와 달리, 이러한 메시는 대상 증거가 아니다. 이들은 지역적 유형화된 요구사항이며, 표면이 나타나서는 안 되는 영역을 포함할 수 있다. Arbor는 제약 메시를 토큰으로 변환하고 고정된 디노이저 내부에 라우팅된 부착 모듈을 학습하여 이 신호를 형상으로 유지한다. 따라서 각 잠재 영역은 공간적 위치에 중요한 제약 조건 부분을 수신할 수 있다. 본 논문에서는 헐, 회피 및 터치 제약 조건을 사용하여 자동 및 아티스트 큐레이팅 제어 벤치마크에서 Arbor를 평가하고, 메트릭 추세를 사용자 선호도 연구와 비교한다. 전용 준수 손실이 없더라도 Arbor는 고정된 제약 조건 하에서 객체 품질과 다양성을 유지하면서 제약 조건 준수 성능을 향상시킨다.
English
Text and image conditioned 3D models now generate convincing assets, but they still offer little direct control over the space an object should occupy or avoid. In authoring, this spatial intent is often known before generation starts. A chair should fit a seating envelope, a prop should leave clearance for motion, or a part should expose a contact surface. Prompts and image views are poor carriers for such constraints, requiring the need for an explicit control interface. We present Arbor, a trainable attachment for text conditioned latent 3D generation. Arbor introduces constraint meshes as a native 3D control interface. The interface uses hull regions where geometry should exist, avoidance regions that should remain empty, and touch regions the object should contact. Unlike completion or whole object scaffold control, these meshes are not target evidence. They are local typed requirements and can include regions where no surface should appear. Arbor keeps this signal as geometry by converting constraint meshes into tokens and learning a routed attachment inside a frozen denoiser. Each latent region can therefore receive the part of the constraint that matters for its spatial location. We evaluate Arbor on automatic and artist curated control benchmarks with hull, avoidance, and touch constraints, and compare the metric trends to a user preference study. Even without dedicated compliance losses, Arbor improves constraint obedience while preserving object quality and variation under fixed constraints.