ChatPaper.aiChatPaper

Drag View: Обобщаемый синтез новых видов на основе непоставленных изображений

Drag View: Generalizable Novel View Synthesis with Unposed Imagery

October 5, 2023
Авторы: Zhiwen Fan, Panwang Pan, Peihao Wang, Yifan Jiang, Hanwen Jiang, Dejia Xu, Zehao Zhu, Dilin Wang, Zhangyang Wang
cs.AI

Аннотация

Мы представляем DragView — новый интерактивный фреймворк для генерации новых видов ранее невидимых сцен. DragView инициализирует новый вид на основе одного исходного изображения, а рендеринг поддерживается разреженным набором неориентированных многовидовых изображений, все это выполняется в рамках одного прямого прохода. Наш подход начинается с того, что пользователи перемещают исходный вид через локальную относительную систему координат. Пиксельно-выровненные признаки получаются путем проекции выборки 3D-точек вдоль целевого луча на исходный вид. Затем мы включаем слой модуляции, зависящий от вида, чтобы эффективно обрабатывать окклюзии во время проекции. Кроме того, мы расширяем механизм эпиполярного внимания, чтобы охватить все исходные пиксели, что облегчает агрегацию инициализированных признаков точек, выровненных по координатам, из других неориентированных видов. Наконец, мы используем еще один трансформер для декодирования признаков лучей в финальные интенсивности пикселей. Важно отметить, что наш фреймворк не полагается ни на 2D-приоритетные модели, ни на явное оценивание поз камер. В ходе тестирования DragView демонстрирует способность обобщать новые сцены, не встречавшиеся во время обучения, а также использует только неориентированные вспомогательные изображения, что позволяет генерировать фотореалистичные новые виды с гибкими траекториями камер. В наших экспериментах мы проводим всестороннее сравнение производительности DragView с недавними сетями представления сцен, работающими в условиях отсутствия поз, а также с обобщаемыми NeRF, подверженными шумным тестовым позам камер. DragView неизменно демонстрирует превосходное качество синтеза видов, а также оказывается более удобным для пользователя. Страница проекта: https://zhiwenfan.github.io/DragView/.
English
We introduce DragView, a novel and interactive framework for generating novel views of unseen scenes. DragView initializes the new view from a single source image, and the rendering is supported by a sparse set of unposed multi-view images, all seamlessly executed within a single feed-forward pass. Our approach begins with users dragging a source view through a local relative coordinate system. Pixel-aligned features are obtained by projecting the sampled 3D points along the target ray onto the source view. We then incorporate a view-dependent modulation layer to effectively handle occlusion during the projection. Additionally, we broaden the epipolar attention mechanism to encompass all source pixels, facilitating the aggregation of initialized coordinate-aligned point features from other unposed views. Finally, we employ another transformer to decode ray features into final pixel intensities. Crucially, our framework does not rely on either 2D prior models or the explicit estimation of camera poses. During testing, DragView showcases the capability to generalize to new scenes unseen during training, also utilizing only unposed support images, enabling the generation of photo-realistic new views characterized by flexible camera trajectories. In our experiments, we conduct a comprehensive comparison of the performance of DragView with recent scene representation networks operating under pose-free conditions, as well as with generalizable NeRFs subject to noisy test camera poses. DragView consistently demonstrates its superior performance in view synthesis quality, while also being more user-friendly. Project page: https://zhiwenfan.github.io/DragView/.
PDF81December 15, 2024