Синтез согласованных изображений новых ракурсов и геометрии посредством внедрения кросс-модального внимания
Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation
June 13, 2025
Авторы: Min-Seop Kwak, Junho Kim, Sangdoo Yun, Dongyoon Han, Taekyoung Kim, Seungryong Kim, Jin-Hwa Kim
cs.AI
Аннотация
Мы представляем основанную на диффузии методологию, которая выполняет согласованную генерацию изображений и геометрии для новых ракурсов с использованием подхода, основанного на деформации и восстановлении. В отличие от предыдущих методов, требующих плотно размеченных изображений или генеративных моделей, встроенных в ограниченные ракурсы, наш метод использует готовые предсказатели геометрии для прогнозирования частичной геометрии, наблюдаемой с опорных изображений, и формулирует синтез новых ракурсов как задачу восстановления как для изображений, так и для геометрии. Для обеспечения точного согласования между сгенерированными изображениями и геометрией мы предлагаем кросс-модальное дистиллирование внимания, при котором карты внимания из ветви диффузии изображений внедряются в параллельную ветвь диффузии геометрии как во время обучения, так и во время вывода. Этот многозадачный подход достигает синергетического эффекта, способствуя геометрически устойчивому синтезу изображений, а также четкому прогнозированию геометрии. Мы также вводим условное формирование сетки на основе близости для интеграции глубинных и нормальных подсказок, интерполируя между облаком точек и фильтруя ошибочно предсказанную геометрию, чтобы она не влияла на процесс генерации. Эмпирически наш метод достигает высококачественного экстраполятивного синтеза ракурсов как для изображений, так и для геометрии в широком диапазоне неизвестных сцен, демонстрирует конкурентоспособное качество реконструкции в условиях интерполяции и создает геометрически согласованные цветные облака точек для комплексного завершения 3D-моделей. Страница проекта доступна по адресу https://cvlab-kaist.github.io/MoAI.
English
We introduce a diffusion-based framework that performs aligned novel view
image and geometry generation via a warping-and-inpainting methodology. Unlike
prior methods that require dense posed images or pose-embedded generative
models limited to in-domain views, our method leverages off-the-shelf geometry
predictors to predict partial geometries viewed from reference images, and
formulates novel-view synthesis as an inpainting task for both image and
geometry. To ensure accurate alignment between generated images and geometry,
we propose cross-modal attention distillation, where attention maps from the
image diffusion branch are injected into a parallel geometry diffusion branch
during both training and inference. This multi-task approach achieves
synergistic effects, facilitating geometrically robust image synthesis as well
as well-defined geometry prediction. We further introduce proximity-based mesh
conditioning to integrate depth and normal cues, interpolating between point
cloud and filtering erroneously predicted geometry from influencing the
generation process. Empirically, our method achieves high-fidelity
extrapolative view synthesis on both image and geometry across a range of
unseen scenes, delivers competitive reconstruction quality under interpolation
settings, and produces geometrically aligned colored point clouds for
comprehensive 3D completion. Project page is available at
https://cvlab-kaist.github.io/MoAI.