ChatPaper.aiChatPaper

Ausgerichtete Synthese von neuartigen Ansichtsbildern und Geometrie durch Cross-modale Aufmerksamkeitsvermittlung

Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation

June 13, 2025
Autoren: Min-Seop Kwak, Junho Kim, Sangdoo Yun, Dongyoon Han, Taekyoung Kim, Seungryong Kim, Jin-Hwa Kim
cs.AI

Zusammenfassung

Wir stellen ein diffusionsbasiertes Framework vor, das die Erzeugung von ausgerichteten neuen Ansichtsbildern und Geometrien durch eine Warping-und-Inpainting-Methodik durchführt. Im Gegensatz zu früheren Methoden, die dichte, posierte Bilder oder auf bestimmte Ansichten beschränkte pose-embedded generative Modelle erfordern, nutzt unsere Methode verfügbare Geometrievorhersagen, um partielle Geometrien aus Referenzbildern vorherzusagen, und formuliert die Synthese neuer Ansichten als Inpainting-Aufgabe für sowohl Bild als auch Geometrie. Um eine präzise Ausrichtung zwischen generierten Bildern und Geometrie zu gewährleisten, schlagen wir eine cross-modale Aufmerksamkeitsdistillation vor, bei der Aufmerksamkeitskarten aus dem Bilddiffusionszweig während des Trainings und der Inferenz in einen parallelen Geometriediffusionszweig injiziert werden. Dieser Multi-Task-Ansatz erzielt synergetische Effekte, die eine geometrisch robuste Bildsynthese sowie eine klar definierte Geometrievorhersage ermöglichen. Wir führen außerdem eine näherungsbasierte Mesh-Konditionierung ein, um Tiefen- und Normaleninformationen zu integrieren, zwischen Punktwolken zu interpolieren und falsch vorhergesagte Geometrie davon abzuhalten, den Generierungsprozess zu beeinflussen. Empirisch erreicht unsere Methode eine hochwertige extrapolative Ansichtssynthese sowohl für Bilder als auch für Geometrien über eine Reihe von ungesehenen Szenen hinweg, liefert eine wettbewerbsfähige Rekonstruktionsqualität unter Interpolationsbedingungen und erzeugt geometrisch ausgerichtete farbige Punktwolken für eine umfassende 3D-Vervollständigung. Die Projektseite ist verfügbar unter https://cvlab-kaist.github.io/MoAI.
English
We introduce a diffusion-based framework that performs aligned novel view image and geometry generation via a warping-and-inpainting methodology. Unlike prior methods that require dense posed images or pose-embedded generative models limited to in-domain views, our method leverages off-the-shelf geometry predictors to predict partial geometries viewed from reference images, and formulates novel-view synthesis as an inpainting task for both image and geometry. To ensure accurate alignment between generated images and geometry, we propose cross-modal attention distillation, where attention maps from the image diffusion branch are injected into a parallel geometry diffusion branch during both training and inference. This multi-task approach achieves synergistic effects, facilitating geometrically robust image synthesis as well as well-defined geometry prediction. We further introduce proximity-based mesh conditioning to integrate depth and normal cues, interpolating between point cloud and filtering erroneously predicted geometry from influencing the generation process. Empirically, our method achieves high-fidelity extrapolative view synthesis on both image and geometry across a range of unseen scenes, delivers competitive reconstruction quality under interpolation settings, and produces geometrically aligned colored point clouds for comprehensive 3D completion. Project page is available at https://cvlab-kaist.github.io/MoAI.
PDF312June 16, 2025