ChatPaper.aiChatPaper

Síntese Alinhada de Imagem de Visão Nova e Geometria via Instilação de Atenção Cross-modal

Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation

June 13, 2025
Autores: Min-Seop Kwak, Junho Kim, Sangdoo Yun, Dongyoon Han, Taekyoung Kim, Seungryong Kim, Jin-Hwa Kim
cs.AI

Resumo

Apresentamos um framework baseado em difusão que realiza a geração alinhada de novas visões de imagem e geometria por meio de uma metodologia de deformação e preenchimento. Diferentemente de métodos anteriores que exigem imagens densamente posicionadas ou modelos generativos incorporados de pose limitados a visões dentro do domínio, nosso método aproveita preditores de geometria prontos para uso para prever geometrias parciais visualizadas a partir de imagens de referência e formula a síntese de novas visões como uma tarefa de preenchimento tanto para imagem quanto para geometria. Para garantir o alinhamento preciso entre as imagens geradas e a geometria, propomos a destilação de atenção cruzada, onde mapas de atenção do ramo de difusão de imagem são injetados em um ramo paralelo de difusão de geometria durante o treinamento e a inferência. Essa abordagem multitarefa alcança efeitos sinérgicos, facilitando a síntese de imagens geometricamente robustas, bem como a previsão de geometria bem definida. Introduzimos ainda o condicionamento de malha baseado em proximidade para integrar pistas de profundidade e normal, interpolando entre nuvens de pontos e filtrando geometrias erroneamente previstas de influenciar o processo de geração. Empiricamente, nosso método alcança síntese extrapolativa de visão de alta fidelidade tanto em imagem quanto em geometria em uma variedade de cenas não vistas, oferece qualidade de reconstrução competitiva em configurações de interpolação e produz nuvens de pontos coloridas geometricamente alinhadas para conclusão 3D abrangente. A página do projeto está disponível em https://cvlab-kaist.github.io/MoAI.
English
We introduce a diffusion-based framework that performs aligned novel view image and geometry generation via a warping-and-inpainting methodology. Unlike prior methods that require dense posed images or pose-embedded generative models limited to in-domain views, our method leverages off-the-shelf geometry predictors to predict partial geometries viewed from reference images, and formulates novel-view synthesis as an inpainting task for both image and geometry. To ensure accurate alignment between generated images and geometry, we propose cross-modal attention distillation, where attention maps from the image diffusion branch are injected into a parallel geometry diffusion branch during both training and inference. This multi-task approach achieves synergistic effects, facilitating geometrically robust image synthesis as well as well-defined geometry prediction. We further introduce proximity-based mesh conditioning to integrate depth and normal cues, interpolating between point cloud and filtering erroneously predicted geometry from influencing the generation process. Empirically, our method achieves high-fidelity extrapolative view synthesis on both image and geometry across a range of unseen scenes, delivers competitive reconstruction quality under interpolation settings, and produces geometrically aligned colored point clouds for comprehensive 3D completion. Project page is available at https://cvlab-kaist.github.io/MoAI.
PDF332June 16, 2025