Drag View: Síntese de Novas Visões Generalizável com Imagens Não Posicionadas
Drag View: Generalizable Novel View Synthesis with Unposed Imagery
October 5, 2023
Autores: Zhiwen Fan, Panwang Pan, Peihao Wang, Yifan Jiang, Hanwen Jiang, Dejia Xu, Zehao Zhu, Dilin Wang, Zhangyang Wang
cs.AI
Resumo
Apresentamos o DragView, uma estrutura interativa e inovadora para gerar novas visualizações de cenas não vistas. O DragView inicializa a nova visualização a partir de uma única imagem de origem, e a renderização é suportada por um conjunto esparso de imagens multiview não posicionadas, tudo executado de forma contínua em uma única passagem de feed-forward. Nossa abordagem começa com os usuários arrastando uma visualização de origem através de um sistema de coordenadas relativas locais. Características alinhadas por pixel são obtidas projetando os pontos 3D amostrados ao longo do raio de destino na visualização de origem. Em seguida, incorporamos uma camada de modulação dependente da visualização para lidar efetivamente com oclusões durante a projeção. Além disso, ampliamos o mecanismo de atenção epipolar para abranger todos os pixels de origem, facilitando a agregação de características de pontos alinhados por coordenadas inicializadas a partir de outras visualizações não posicionadas. Por fim, empregamos outro transformador para decodificar as características do raio em intensidades de pixel finais. Crucialmente, nossa estrutura não depende de modelos de prioridade 2D nem da estimativa explícita de poses da câmera. Durante os testes, o DragView demonstra a capacidade de generalizar para novas cenas não vistas durante o treinamento, utilizando apenas imagens de suporte não posicionadas, permitindo a geração de novas visualizações foto-realísticas caracterizadas por trajetórias de câmera flexíveis. Em nossos experimentos, realizamos uma comparação abrangente do desempenho do DragView com redes recentes de representação de cenas operando em condições sem poses, bem como com NeRFs generalizáveis sujeitos a poses de câmera de teste ruidosas. O DragView demonstra consistentemente seu desempenho superior na qualidade de síntese de visualização, além de ser mais amigável ao usuário. Página do projeto: https://zhiwenfan.github.io/DragView/.
English
We introduce DragView, a novel and interactive framework for generating novel
views of unseen scenes. DragView initializes the new view from a single source
image, and the rendering is supported by a sparse set of unposed multi-view
images, all seamlessly executed within a single feed-forward pass. Our approach
begins with users dragging a source view through a local relative coordinate
system. Pixel-aligned features are obtained by projecting the sampled 3D points
along the target ray onto the source view. We then incorporate a view-dependent
modulation layer to effectively handle occlusion during the projection.
Additionally, we broaden the epipolar attention mechanism to encompass all
source pixels, facilitating the aggregation of initialized coordinate-aligned
point features from other unposed views. Finally, we employ another transformer
to decode ray features into final pixel intensities. Crucially, our framework
does not rely on either 2D prior models or the explicit estimation of camera
poses. During testing, DragView showcases the capability to generalize to new
scenes unseen during training, also utilizing only unposed support images,
enabling the generation of photo-realistic new views characterized by flexible
camera trajectories. In our experiments, we conduct a comprehensive comparison
of the performance of DragView with recent scene representation networks
operating under pose-free conditions, as well as with generalizable NeRFs
subject to noisy test camera poses. DragView consistently demonstrates its
superior performance in view synthesis quality, while also being more
user-friendly. Project page: https://zhiwenfan.github.io/DragView/.