Uitgelijnde Synthese van Nieuwe Beeldweergaven en Geometrie via Cross-modale Aandachtsoverdracht
Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation
June 13, 2025
Auteurs: Min-Seop Kwak, Junho Kim, Sangdoo Yun, Dongyoon Han, Taekyoung Kim, Seungryong Kim, Jin-Hwa Kim
cs.AI
Samenvatting
We introduceren een op diffusie gebaseerd framework dat uitgelijnde nieuwe beeld- en geometriegeneratie uitvoert via een warping-en-inpainting methodologie. In tegenstelling tot eerdere methoden die dichte geposeerde afbeeldingen vereisen of pose-ingebedde generatieve modellen die beperkt zijn tot in-domein beelden, maakt onze methode gebruik van standaard geometrievoorspellers om partiële geometrieën te voorspellen die vanuit referentiebeelden worden bekeken, en formuleert het synthetiseren van nieuwe beelden als een inpainting-taak voor zowel beeld als geometrie. Om nauwkeurige uitlijning tussen gegenereerde beelden en geometrie te garanderen, stellen we cross-modale aandacht-distillatie voor, waarbij aandachtkaarten van de beelddiffusietak worden geïnjecteerd in een parallelle geometriediffusietak tijdens zowel training als inferentie. Deze multi-task aanpak bereikt synergetische effecten, wat geometrisch robuuste beeldsynthese en goed gedefinieerde geometrievoorspelling mogelijk maakt. We introduceren verder proximity-based mesh conditioning om diepte- en normaalcues te integreren, waarbij wordt geïnterpoleerd tussen puntenwolken en foutief voorspelde geometrie wordt gefilterd om te voorkomen dat deze het generatieproces beïnvloedt. Empirisch bereikt onze methode hoogwaardige extrapolatieve beeldsynthese op zowel beeld als geometrie over een reeks onbekende scènes, levert het competitieve reconstructiekwaliteit onder interpolatie-instellingen, en produceert het geometrisch uitgelijnde gekleurde puntenwolken voor uitgebreide 3D-completering. De projectpagina is beschikbaar op https://cvlab-kaist.github.io/MoAI.
English
We introduce a diffusion-based framework that performs aligned novel view
image and geometry generation via a warping-and-inpainting methodology. Unlike
prior methods that require dense posed images or pose-embedded generative
models limited to in-domain views, our method leverages off-the-shelf geometry
predictors to predict partial geometries viewed from reference images, and
formulates novel-view synthesis as an inpainting task for both image and
geometry. To ensure accurate alignment between generated images and geometry,
we propose cross-modal attention distillation, where attention maps from the
image diffusion branch are injected into a parallel geometry diffusion branch
during both training and inference. This multi-task approach achieves
synergistic effects, facilitating geometrically robust image synthesis as well
as well-defined geometry prediction. We further introduce proximity-based mesh
conditioning to integrate depth and normal cues, interpolating between point
cloud and filtering erroneously predicted geometry from influencing the
generation process. Empirically, our method achieves high-fidelity
extrapolative view synthesis on both image and geometry across a range of
unseen scenes, delivers competitive reconstruction quality under interpolation
settings, and produces geometrically aligned colored point clouds for
comprehensive 3D completion. Project page is available at
https://cvlab-kaist.github.io/MoAI.