기하구조 편집 가능 및 외관 보존 객체 합성
Geometry-Editable and Appearance-Preserving Object Compositon
May 27, 2025
저자: Jianman Lin, Haojie Li, Chunmei Qing, Zhijing Yang, Liang Lin, Tianshui Chen
cs.AI
초록
일반 객체 합성(GOC)은 대상 객체를 원하는 기하학적 속성과 함께 배경 장면에 자연스럽게 통합하면서도 객체의 세밀한 외형 디테일을 보존하는 것을 목표로 합니다. 최근 접근법들은 시맨틱 임베딩을 도출하고 이를 고급 확산 모델에 통합하여 기하학 편집이 가능한 생성을 가능하게 합니다. 그러나 이러한 고도로 압축된 임베딩은 고수준의 시맨틱 단서만을 인코딩하며, 필연적으로 세밀한 외형 디테일을 손실합니다. 우리는 분리된 기하학 편집 및 외형 보존 확산 모델(DGAD)을 소개합니다. 이 모델은 먼저 시맨틱 임베딩을 활용하여 원하는 기하학적 변환을 암묵적으로 포착한 다음, 크로스-어텐션 검색 메커니즘을 사용하여 세밀한 외형 특징을 기하학 편집된 표현과 정렬함으로써 정확한 기하학 편집과 충실한 외형 보존을 모두 가능하게 합니다. 구체적으로, DGAD는 CLIP/DINO에서 파생된 임베딩과 참조 네트워크를 기반으로 시맨틱 임베딩과 외형 보존 표현을 추출한 후, 이를 인코딩 및 디코딩 파이프라인에 분리된 방식으로 원활하게 통합합니다. 먼저, 시맨틱 임베딩을 강력한 공간 추론 능력을 가진 사전 학습된 확산 모델에 통합하여 객체 기하학을 암묵적으로 포착함으로써 유연한 객체 조작을 가능하게 하고 효과적인 편집성을 보장합니다. 그런 다음, 암묵적으로 학습된 객체 기하학을 활용하여 외형 특징을 검색하고 해당 영역과 공간적으로 정렬하는 밀집 크로스-어텐션 메커니즘을 설계하여 충실한 외형 일관성을 보장합니다. 공개 벤치마크에서의 광범위한 실험을 통해 제안된 DGAD 프레임워크의 효과성을 입증합니다.
English
General object composition (GOC) aims to seamlessly integrate a target object
into a background scene with desired geometric properties, while simultaneously
preserving its fine-grained appearance details. Recent approaches derive
semantic embeddings and integrate them into advanced diffusion models to enable
geometry-editable generation. However, these highly compact embeddings encode
only high-level semantic cues and inevitably discard fine-grained appearance
details. We introduce a Disentangled Geometry-editable and
Appearance-preserving Diffusion (DGAD) model that first leverages semantic
embeddings to implicitly capture the desired geometric transformations and then
employs a cross-attention retrieval mechanism to align fine-grained appearance
features with the geometry-edited representation, facilitating both precise
geometry editing and faithful appearance preservation in object composition.
Specifically, DGAD builds on CLIP/DINO-derived and reference networks to
extract semantic embeddings and appearance-preserving representations, which
are then seamlessly integrated into the encoding and decoding pipelines in a
disentangled manner. We first integrate the semantic embeddings into
pre-trained diffusion models that exhibit strong spatial reasoning capabilities
to implicitly capture object geometry, thereby facilitating flexible object
manipulation and ensuring effective editability. Then, we design a dense
cross-attention mechanism that leverages the implicitly learned object geometry
to retrieve and spatially align appearance features with their corresponding
regions, ensuring faithful appearance consistency. Extensive experiments on
public benchmarks demonstrate the effectiveness of the proposed DGAD framework.