Síntesis de Imágenes y Geometría de Vistas Novedosas Alineadas mediante la Instilación de Atención Cross-modal
Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation
June 13, 2025
Autores: Min-Seop Kwak, Junho Kim, Sangdoo Yun, Dongyoon Han, Taekyoung Kim, Seungryong Kim, Jin-Hwa Kim
cs.AI
Resumen
Presentamos un marco basado en difusión que realiza la generación de imágenes y geometría de nuevas vistas alineadas mediante una metodología de deformación e inpaint. A diferencia de métodos anteriores que requieren imágenes densamente posadas o modelos generativos incrustados de pose limitados a vistas dentro del dominio, nuestro método aprovecha predictores de geometría estándar para predecir geometrías parciales vistas desde imágenes de referencia, y formula la síntesis de nuevas vistas como una tarea de inpaint tanto para la imagen como para la geometría. Para garantizar una alineación precisa entre las imágenes generadas y la geometría, proponemos una destilación de atención multimodal, donde los mapas de atención de la rama de difusión de imágenes se inyectan en una rama paralela de difusión de geometría durante el entrenamiento y la inferencia. Este enfoque multitarea logra efectos sinérgicos, facilitando la síntesis de imágenes geométricamente robustas, así como la predicción de geometría bien definida. Además, introducimos un condicionamiento de malla basado en proximidad para integrar señales de profundidad y normales, interpolando entre nubes de puntos y filtrando geometrías predichas erróneamente para evitar que influyan en el proceso de generación. Empíricamente, nuestro método logra una síntesis de vistas extrapolativas de alta fidelidad tanto en imágenes como en geometría en una variedad de escenas no vistas, ofrece una calidad de reconstrucción competitiva en configuraciones de interpolación y produce nubes de puntos coloreadas y alineadas geométricamente para una completación 3D integral. La página del proyecto está disponible en https://cvlab-kaist.github.io/MoAI.
English
We introduce a diffusion-based framework that performs aligned novel view
image and geometry generation via a warping-and-inpainting methodology. Unlike
prior methods that require dense posed images or pose-embedded generative
models limited to in-domain views, our method leverages off-the-shelf geometry
predictors to predict partial geometries viewed from reference images, and
formulates novel-view synthesis as an inpainting task for both image and
geometry. To ensure accurate alignment between generated images and geometry,
we propose cross-modal attention distillation, where attention maps from the
image diffusion branch are injected into a parallel geometry diffusion branch
during both training and inference. This multi-task approach achieves
synergistic effects, facilitating geometrically robust image synthesis as well
as well-defined geometry prediction. We further introduce proximity-based mesh
conditioning to integrate depth and normal cues, interpolating between point
cloud and filtering erroneously predicted geometry from influencing the
generation process. Empirically, our method achieves high-fidelity
extrapolative view synthesis on both image and geometry across a range of
unseen scenes, delivers competitive reconstruction quality under interpolation
settings, and produces geometrically aligned colored point clouds for
comprehensive 3D completion. Project page is available at
https://cvlab-kaist.github.io/MoAI.