Composition d'objets géométriquement modifiables et préservant l'apparence
Geometry-Editable and Appearance-Preserving Object Compositon
May 27, 2025
papers.authors: Jianman Lin, Haojie Li, Chunmei Qing, Zhijing Yang, Liang Lin, Tianshui Chen
cs.AI
papers.abstract
La composition générale d'objets (GOC) vise à intégrer de manière fluide un objet cible dans une scène d'arrière-plan avec des propriétés géométriques souhaitées, tout en préservant simultanément les détails fins de son apparence. Les approches récentes dérivent des embeddings sémantiques et les intègrent dans des modèles de diffusion avancés pour permettre une génération modifiable géométriquement. Cependant, ces embeddings hautement compacts encodent uniquement des indices sémantiques de haut niveau et éliminent inévitablement les détails fins de l'apparence. Nous introduisons un modèle de diffusion à géométrie modifiable et préservation de l'apparence désentrelacée (DGAD) qui exploite d'abord les embeddings sémantiques pour capturer implicitement les transformations géométriques souhaitées, puis utilise un mécanisme de récupération par attention croisée pour aligner les caractéristiques fines de l'apparence avec la représentation modifiée géométriquement, facilitant ainsi à la fois une édition géométrique précise et une préservation fidèle de l'apparence dans la composition d'objets. Plus précisément, DGAD s'appuie sur des réseaux dérivés de CLIP/DINO et de référence pour extraire les embeddings sémantiques et les représentations préservant l'apparence, qui sont ensuite intégrées de manière désentrelacée dans les pipelines d'encodage et de décodage. Nous intégrons d'abord les embeddings sémantiques dans des modèles de diffusion pré-entraînés qui présentent de fortes capacités de raisonnement spatial pour capturer implicitement la géométrie des objets, facilitant ainsi une manipulation flexible des objets et assurant une éditabilité efficace. Ensuite, nous concevons un mécanisme d'attention croisée dense qui exploite la géométrie des objets apprise implicitement pour récupérer et aligner spatialement les caractéristiques d'apparence avec leurs régions correspondantes, garantissant une cohérence fidèle de l'apparence. Des expériences approfondies sur des benchmarks publics démontrent l'efficacité du cadre DGAD proposé.
English
General object composition (GOC) aims to seamlessly integrate a target object
into a background scene with desired geometric properties, while simultaneously
preserving its fine-grained appearance details. Recent approaches derive
semantic embeddings and integrate them into advanced diffusion models to enable
geometry-editable generation. However, these highly compact embeddings encode
only high-level semantic cues and inevitably discard fine-grained appearance
details. We introduce a Disentangled Geometry-editable and
Appearance-preserving Diffusion (DGAD) model that first leverages semantic
embeddings to implicitly capture the desired geometric transformations and then
employs a cross-attention retrieval mechanism to align fine-grained appearance
features with the geometry-edited representation, facilitating both precise
geometry editing and faithful appearance preservation in object composition.
Specifically, DGAD builds on CLIP/DINO-derived and reference networks to
extract semantic embeddings and appearance-preserving representations, which
are then seamlessly integrated into the encoding and decoding pipelines in a
disentangled manner. We first integrate the semantic embeddings into
pre-trained diffusion models that exhibit strong spatial reasoning capabilities
to implicitly capture object geometry, thereby facilitating flexible object
manipulation and ensuring effective editability. Then, we design a dense
cross-attention mechanism that leverages the implicitly learned object geometry
to retrieve and spatially align appearance features with their corresponding
regions, ensuring faithful appearance consistency. Extensive experiments on
public benchmarks demonstrate the effectiveness of the proposed DGAD framework.