ChatPaper.aiChatPaper

Composition d'objets géométriquement modifiables et préservant l'apparence

Geometry-Editable and Appearance-Preserving Object Compositon

May 27, 2025
papers.authors: Jianman Lin, Haojie Li, Chunmei Qing, Zhijing Yang, Liang Lin, Tianshui Chen
cs.AI

papers.abstract

La composition générale d'objets (GOC) vise à intégrer de manière fluide un objet cible dans une scène d'arrière-plan avec des propriétés géométriques souhaitées, tout en préservant simultanément les détails fins de son apparence. Les approches récentes dérivent des embeddings sémantiques et les intègrent dans des modèles de diffusion avancés pour permettre une génération modifiable géométriquement. Cependant, ces embeddings hautement compacts encodent uniquement des indices sémantiques de haut niveau et éliminent inévitablement les détails fins de l'apparence. Nous introduisons un modèle de diffusion à géométrie modifiable et préservation de l'apparence désentrelacée (DGAD) qui exploite d'abord les embeddings sémantiques pour capturer implicitement les transformations géométriques souhaitées, puis utilise un mécanisme de récupération par attention croisée pour aligner les caractéristiques fines de l'apparence avec la représentation modifiée géométriquement, facilitant ainsi à la fois une édition géométrique précise et une préservation fidèle de l'apparence dans la composition d'objets. Plus précisément, DGAD s'appuie sur des réseaux dérivés de CLIP/DINO et de référence pour extraire les embeddings sémantiques et les représentations préservant l'apparence, qui sont ensuite intégrées de manière désentrelacée dans les pipelines d'encodage et de décodage. Nous intégrons d'abord les embeddings sémantiques dans des modèles de diffusion pré-entraînés qui présentent de fortes capacités de raisonnement spatial pour capturer implicitement la géométrie des objets, facilitant ainsi une manipulation flexible des objets et assurant une éditabilité efficace. Ensuite, nous concevons un mécanisme d'attention croisée dense qui exploite la géométrie des objets apprise implicitement pour récupérer et aligner spatialement les caractéristiques d'apparence avec leurs régions correspondantes, garantissant une cohérence fidèle de l'apparence. Des expériences approfondies sur des benchmarks publics démontrent l'efficacité du cadre DGAD proposé.
English
General object composition (GOC) aims to seamlessly integrate a target object into a background scene with desired geometric properties, while simultaneously preserving its fine-grained appearance details. Recent approaches derive semantic embeddings and integrate them into advanced diffusion models to enable geometry-editable generation. However, these highly compact embeddings encode only high-level semantic cues and inevitably discard fine-grained appearance details. We introduce a Disentangled Geometry-editable and Appearance-preserving Diffusion (DGAD) model that first leverages semantic embeddings to implicitly capture the desired geometric transformations and then employs a cross-attention retrieval mechanism to align fine-grained appearance features with the geometry-edited representation, facilitating both precise geometry editing and faithful appearance preservation in object composition. Specifically, DGAD builds on CLIP/DINO-derived and reference networks to extract semantic embeddings and appearance-preserving representations, which are then seamlessly integrated into the encoding and decoding pipelines in a disentangled manner. We first integrate the semantic embeddings into pre-trained diffusion models that exhibit strong spatial reasoning capabilities to implicitly capture object geometry, thereby facilitating flexible object manipulation and ensuring effective editability. Then, we design a dense cross-attention mechanism that leverages the implicitly learned object geometry to retrieve and spatially align appearance features with their corresponding regions, ensuring faithful appearance consistency. Extensive experiments on public benchmarks demonstrate the effectiveness of the proposed DGAD framework.
PDF62June 6, 2025