ChatPaper.aiChatPaper

기하구조 편집 가능 및 외관 보존 객체 합성

Geometry-Editable and Appearance-Preserving Object Compositon

May 27, 2025
저자: Jianman Lin, Haojie Li, Chunmei Qing, Zhijing Yang, Liang Lin, Tianshui Chen
cs.AI

초록

일반 객체 합성(GOC)은 대상 객체를 원하는 기하학적 속성과 함께 배경 장면에 자연스럽게 통합하면서도 객체의 세밀한 외형 디테일을 보존하는 것을 목표로 합니다. 최근 접근법들은 시맨틱 임베딩을 도출하고 이를 고급 확산 모델에 통합하여 기하학 편집이 가능한 생성을 가능하게 합니다. 그러나 이러한 고도로 압축된 임베딩은 고수준의 시맨틱 단서만을 인코딩하며, 필연적으로 세밀한 외형 디테일을 손실합니다. 우리는 분리된 기하학 편집 및 외형 보존 확산 모델(DGAD)을 소개합니다. 이 모델은 먼저 시맨틱 임베딩을 활용하여 원하는 기하학적 변환을 암묵적으로 포착한 다음, 크로스-어텐션 검색 메커니즘을 사용하여 세밀한 외형 특징을 기하학 편집된 표현과 정렬함으로써 정확한 기하학 편집과 충실한 외형 보존을 모두 가능하게 합니다. 구체적으로, DGAD는 CLIP/DINO에서 파생된 임베딩과 참조 네트워크를 기반으로 시맨틱 임베딩과 외형 보존 표현을 추출한 후, 이를 인코딩 및 디코딩 파이프라인에 분리된 방식으로 원활하게 통합합니다. 먼저, 시맨틱 임베딩을 강력한 공간 추론 능력을 가진 사전 학습된 확산 모델에 통합하여 객체 기하학을 암묵적으로 포착함으로써 유연한 객체 조작을 가능하게 하고 효과적인 편집성을 보장합니다. 그런 다음, 암묵적으로 학습된 객체 기하학을 활용하여 외형 특징을 검색하고 해당 영역과 공간적으로 정렬하는 밀집 크로스-어텐션 메커니즘을 설계하여 충실한 외형 일관성을 보장합니다. 공개 벤치마크에서의 광범위한 실험을 통해 제안된 DGAD 프레임워크의 효과성을 입증합니다.
English
General object composition (GOC) aims to seamlessly integrate a target object into a background scene with desired geometric properties, while simultaneously preserving its fine-grained appearance details. Recent approaches derive semantic embeddings and integrate them into advanced diffusion models to enable geometry-editable generation. However, these highly compact embeddings encode only high-level semantic cues and inevitably discard fine-grained appearance details. We introduce a Disentangled Geometry-editable and Appearance-preserving Diffusion (DGAD) model that first leverages semantic embeddings to implicitly capture the desired geometric transformations and then employs a cross-attention retrieval mechanism to align fine-grained appearance features with the geometry-edited representation, facilitating both precise geometry editing and faithful appearance preservation in object composition. Specifically, DGAD builds on CLIP/DINO-derived and reference networks to extract semantic embeddings and appearance-preserving representations, which are then seamlessly integrated into the encoding and decoding pipelines in a disentangled manner. We first integrate the semantic embeddings into pre-trained diffusion models that exhibit strong spatial reasoning capabilities to implicitly capture object geometry, thereby facilitating flexible object manipulation and ensuring effective editability. Then, we design a dense cross-attention mechanism that leverages the implicitly learned object geometry to retrieve and spatially align appearance features with their corresponding regions, ensuring faithful appearance consistency. Extensive experiments on public benchmarks demonstrate the effectiveness of the proposed DGAD framework.
PDF52June 6, 2025