Ausgerichtete Synthese von neuartigen Ansichtsbildern und Geometrie durch Cross-modale Aufmerksamkeitsvermittlung
Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation
June 13, 2025
Autoren: Min-Seop Kwak, Junho Kim, Sangdoo Yun, Dongyoon Han, Taekyoung Kim, Seungryong Kim, Jin-Hwa Kim
cs.AI
Zusammenfassung
Wir stellen ein diffusionsbasiertes Framework vor, das die Erzeugung von ausgerichteten neuen Ansichtsbildern und Geometrien durch eine Warping-und-Inpainting-Methodik durchführt. Im Gegensatz zu früheren Methoden, die dichte, posierte Bilder oder auf bestimmte Ansichten beschränkte pose-embedded generative Modelle erfordern, nutzt unsere Methode verfügbare Geometrievorhersagen, um partielle Geometrien aus Referenzbildern vorherzusagen, und formuliert die Synthese neuer Ansichten als Inpainting-Aufgabe für sowohl Bild als auch Geometrie. Um eine präzise Ausrichtung zwischen generierten Bildern und Geometrie zu gewährleisten, schlagen wir eine cross-modale Aufmerksamkeitsdistillation vor, bei der Aufmerksamkeitskarten aus dem Bilddiffusionszweig während des Trainings und der Inferenz in einen parallelen Geometriediffusionszweig injiziert werden. Dieser Multi-Task-Ansatz erzielt synergetische Effekte, die eine geometrisch robuste Bildsynthese sowie eine klar definierte Geometrievorhersage ermöglichen. Wir führen außerdem eine näherungsbasierte Mesh-Konditionierung ein, um Tiefen- und Normaleninformationen zu integrieren, zwischen Punktwolken zu interpolieren und falsch vorhergesagte Geometrie davon abzuhalten, den Generierungsprozess zu beeinflussen. Empirisch erreicht unsere Methode eine hochwertige extrapolative Ansichtssynthese sowohl für Bilder als auch für Geometrien über eine Reihe von ungesehenen Szenen hinweg, liefert eine wettbewerbsfähige Rekonstruktionsqualität unter Interpolationsbedingungen und erzeugt geometrisch ausgerichtete farbige Punktwolken für eine umfassende 3D-Vervollständigung. Die Projektseite ist verfügbar unter https://cvlab-kaist.github.io/MoAI.
English
We introduce a diffusion-based framework that performs aligned novel view
image and geometry generation via a warping-and-inpainting methodology. Unlike
prior methods that require dense posed images or pose-embedded generative
models limited to in-domain views, our method leverages off-the-shelf geometry
predictors to predict partial geometries viewed from reference images, and
formulates novel-view synthesis as an inpainting task for both image and
geometry. To ensure accurate alignment between generated images and geometry,
we propose cross-modal attention distillation, where attention maps from the
image diffusion branch are injected into a parallel geometry diffusion branch
during both training and inference. This multi-task approach achieves
synergistic effects, facilitating geometrically robust image synthesis as well
as well-defined geometry prediction. We further introduce proximity-based mesh
conditioning to integrate depth and normal cues, interpolating between point
cloud and filtering erroneously predicted geometry from influencing the
generation process. Empirically, our method achieves high-fidelity
extrapolative view synthesis on both image and geometry across a range of
unseen scenes, delivers competitive reconstruction quality under interpolation
settings, and produces geometrically aligned colored point clouds for
comprehensive 3D completion. Project page is available at
https://cvlab-kaist.github.io/MoAI.