Sintesi Allineata di Immagini da Nuove Prospettive e Geometrie tramite Istillazione di Attenzione Cross-modale
Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation
June 13, 2025
Autori: Min-Seop Kwak, Junho Kim, Sangdoo Yun, Dongyoon Han, Taekyoung Kim, Seungryong Kim, Jin-Hwa Kim
cs.AI
Abstract
Introduciamo un framework basato sulla diffusione che esegue la generazione allineata di nuove viste per immagini e geometrie attraverso una metodologia di deformazione e inpainting. A differenza dei metodi precedenti che richiedono immagini con pose dense o modelli generativi incorporati di pose limitati a viste in-dominio, il nostro metodo sfrutta predittori di geometria preesistenti per prevedere geometrie parziali viste da immagini di riferimento e formula la sintesi di nuove viste come un compito di inpainting sia per l'immagine che per la geometria. Per garantire un allineamento accurato tra le immagini generate e la geometria, proponiamo una distillazione di attenzione cross-modale, in cui le mappe di attenzione del ramo di diffusione dell'immagine vengono iniettate in un ramo parallelo di diffusione della geometria durante sia l'addestramento che l'inferenza. Questo approccio multi-task ottiene effetti sinergici, facilitando una sintesi di immagini geometricamente robusta nonché una previsione di geometria ben definita. Introduciamo inoltre un condizionamento mesh basato sulla prossimità per integrare indizi di profondità e normali, interpolando tra la nuvola di punti e filtrando la geometria prevista erroneamente per evitare che influenzi il processo di generazione. Empiricamente, il nostro metodo raggiunge una sintesi di viste estrapolative ad alta fedeltà sia per l'immagine che per la geometria in una gamma di scene non viste, offre una qualità di ricostruzione competitiva in contesti di interpolazione e produce nuvole di punti colorate allineate geometricamente per un completamento 3D completo. La pagina del progetto è disponibile all'indirizzo https://cvlab-kaist.github.io/MoAI.
English
We introduce a diffusion-based framework that performs aligned novel view
image and geometry generation via a warping-and-inpainting methodology. Unlike
prior methods that require dense posed images or pose-embedded generative
models limited to in-domain views, our method leverages off-the-shelf geometry
predictors to predict partial geometries viewed from reference images, and
formulates novel-view synthesis as an inpainting task for both image and
geometry. To ensure accurate alignment between generated images and geometry,
we propose cross-modal attention distillation, where attention maps from the
image diffusion branch are injected into a parallel geometry diffusion branch
during both training and inference. This multi-task approach achieves
synergistic effects, facilitating geometrically robust image synthesis as well
as well-defined geometry prediction. We further introduce proximity-based mesh
conditioning to integrate depth and normal cues, interpolating between point
cloud and filtering erroneously predicted geometry from influencing the
generation process. Empirically, our method achieves high-fidelity
extrapolative view synthesis on both image and geometry across a range of
unseen scenes, delivers competitive reconstruction quality under interpolation
settings, and produces geometrically aligned colored point clouds for
comprehensive 3D completion. Project page is available at
https://cvlab-kaist.github.io/MoAI.