Синтез согласованных изображений новых ракурсов и геометрии посредством внедрения кросс-модального внимания

Аннотация

Мы представляем основанную на диффузии методологию, которая выполняет согласованную генерацию изображений и геометрии для новых ракурсов с использованием подхода, основанного на деформации и восстановлении. В отличие от предыдущих методов, требующих плотно размеченных изображений или генеративных моделей, встроенных в ограниченные ракурсы, наш метод использует готовые предсказатели геометрии для прогнозирования частичной геометрии, наблюдаемой с опорных изображений, и формулирует синтез новых ракурсов как задачу восстановления как для изображений, так и для геометрии. Для обеспечения точного согласования между сгенерированными изображениями и геометрией мы предлагаем кросс-модальное дистиллирование внимания, при котором карты внимания из ветви диффузии изображений внедряются в параллельную ветвь диффузии геометрии как во время обучения, так и во время вывода. Этот многозадачный подход достигает синергетического эффекта, способствуя геометрически устойчивому синтезу изображений, а также четкому прогнозированию геометрии. Мы также вводим условное формирование сетки на основе близости для интеграции глубинных и нормальных подсказок, интерполируя между облаком точек и фильтруя ошибочно предсказанную геометрию, чтобы она не влияла на процесс генерации. Эмпирически наш метод достигает высококачественного экстраполятивного синтеза ракурсов как для изображений, так и для геометрии в широком диапазоне неизвестных сцен, демонстрирует конкурентоспособное качество реконструкции в условиях интерполяции и создает геометрически согласованные цветные облака точек для комплексного завершения 3D-моделей. Страница проекта доступна по адресу https://cvlab-kaist.github.io/MoAI.

English

We introduce a diffusion-based framework that performs aligned novel view image and geometry generation via a warping-and-inpainting methodology. Unlike prior methods that require dense posed images or pose-embedded generative models limited to in-domain views, our method leverages off-the-shelf geometry predictors to predict partial geometries viewed from reference images, and formulates novel-view synthesis as an inpainting task for both image and geometry. To ensure accurate alignment between generated images and geometry, we propose cross-modal attention distillation, where attention maps from the image diffusion branch are injected into a parallel geometry diffusion branch during both training and inference. This multi-task approach achieves synergistic effects, facilitating geometrically robust image synthesis as well as well-defined geometry prediction. We further introduce proximity-based mesh conditioning to integrate depth and normal cues, interpolating between point cloud and filtering erroneously predicted geometry from influencing the generation process. Empirically, our method achieves high-fidelity extrapolative view synthesis on both image and geometry across a range of unseen scenes, delivers competitive reconstruction quality under interpolation settings, and produces geometrically aligned colored point clouds for comprehensive 3D completion. Project page is available at https://cvlab-kaist.github.io/MoAI.

Синтез согласованных изображений новых ракурсов и геометрии посредством внедрения кросс-модального внимания

Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation

Аннотация

Support