ChatPaper.aiChatPaper

Synthèse d'images et de géométrie de vues nouvelles alignées via l'instillation d'attention intermodale

Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation

June 13, 2025
Auteurs: Min-Seop Kwak, Junho Kim, Sangdoo Yun, Dongyoon Han, Taekyoung Kim, Seungryong Kim, Jin-Hwa Kim
cs.AI

Résumé

Nous présentons un cadre basé sur la diffusion qui réalise la génération d'images et de géométries de nouvelles vues alignées via une méthodologie de déformation et d'inpainting. Contrairement aux méthodes antérieures nécessitant des images posées denses ou des modèles génératifs intégrant la pose limités à des vues dans le domaine, notre approche exploite des prédicteurs de géométrie prêts à l'emploi pour prédire des géométries partielles vues à partir d'images de référence, et formule la synthèse de nouvelles vues comme une tâche d'inpainting pour à la fois l'image et la géométrie. Pour garantir un alignement précis entre les images générées et la géométrie, nous proposons une distillation d'attention intermodale, où les cartes d'attention de la branche de diffusion d'image sont injectées dans une branche parallèle de diffusion de géométrie pendant l'entraînement et l'inférence. Cette approche multitâche produit des effets synergiques, facilitant une synthèse d'image géométriquement robuste ainsi qu'une prédiction de géométrie bien définie. Nous introduisons également un conditionnement de maillage basé sur la proximité pour intégrer des indices de profondeur et de normale, interpolant entre un nuage de points et filtrant les géométries prédites de manière erronée afin d'éviter qu'elles n'influencent le processus de génération. Empiriquement, notre méthode atteint une synthèse de vues extrapolative de haute fidélité à la fois pour l'image et la géométrie sur une gamme de scènes inédites, offre une qualité de reconstruction compétitive dans des paramètres d'interpolation, et produit des nuages de points colorés géométriquement alignés pour une complétion 3D complète. La page du projet est disponible à l'adresse https://cvlab-kaist.github.io/MoAI.
English
We introduce a diffusion-based framework that performs aligned novel view image and geometry generation via a warping-and-inpainting methodology. Unlike prior methods that require dense posed images or pose-embedded generative models limited to in-domain views, our method leverages off-the-shelf geometry predictors to predict partial geometries viewed from reference images, and formulates novel-view synthesis as an inpainting task for both image and geometry. To ensure accurate alignment between generated images and geometry, we propose cross-modal attention distillation, where attention maps from the image diffusion branch are injected into a parallel geometry diffusion branch during both training and inference. This multi-task approach achieves synergistic effects, facilitating geometrically robust image synthesis as well as well-defined geometry prediction. We further introduce proximity-based mesh conditioning to integrate depth and normal cues, interpolating between point cloud and filtering erroneously predicted geometry from influencing the generation process. Empirically, our method achieves high-fidelity extrapolative view synthesis on both image and geometry across a range of unseen scenes, delivers competitive reconstruction quality under interpolation settings, and produces geometrically aligned colored point clouds for comprehensive 3D completion. Project page is available at https://cvlab-kaist.github.io/MoAI.
PDF312June 16, 2025