ChatPaper.aiChatPaper

Modelo de Percepção 3D Contínua com Estado Persistente

Continuous 3D Perception Model with Persistent State

January 21, 2025
Autores: Qianqian Wang, Yifei Zhang, Aleksander Holynski, Alexei A. Efros, Angjoo Kanazawa
cs.AI

Resumo

Apresentamos um framework unificado capaz de resolver uma ampla gama de tarefas em 3D. Nossa abordagem apresenta um modelo recorrente com estado que atualiza continuamente sua representação de estado a cada nova observação. Dado um fluxo de imagens, esse estado em evolução pode ser usado para gerar mapas de pontos em escala métrica (pontos 3D por pixel) para cada nova entrada de forma online. Esses mapas de pontos residem em um sistema de coordenadas comum e podem ser acumulados em uma reconstrução de cena densa e coerente que se atualiza à medida que novas imagens chegam. Nosso modelo, chamado CUT3R (Transformer de Atualização Contínua para Reconstrução 3D), captura informações ricas de cenas do mundo real: não apenas pode prever mapas de pontos precisos a partir de observações de imagens, mas também pode inferir regiões não vistas da cena ao explorar visualizações virtuais não observadas. Nosso método é simples, porém altamente flexível, aceitando naturalmente comprimentos variados de imagens que podem ser sequências de vídeo ou coleções de fotos não ordenadas, contendo conteúdo estático e dinâmico. Avaliamos nosso método em várias tarefas 3D/4D e demonstramos desempenho competitivo ou de ponta em cada uma. Página do Projeto: https://cut3r.github.io/
English
We present a unified framework capable of solving a broad range of 3D tasks. Our approach features a stateful recurrent model that continuously updates its state representation with each new observation. Given a stream of images, this evolving state can be used to generate metric-scale pointmaps (per-pixel 3D points) for each new input in an online fashion. These pointmaps reside within a common coordinate system, and can be accumulated into a coherent, dense scene reconstruction that updates as new images arrive. Our model, called CUT3R (Continuous Updating Transformer for 3D Reconstruction), captures rich priors of real-world scenes: not only can it predict accurate pointmaps from image observations, but it can also infer unseen regions of the scene by probing at virtual, unobserved views. Our method is simple yet highly flexible, naturally accepting varying lengths of images that may be either video streams or unordered photo collections, containing both static and dynamic content. We evaluate our method on various 3D/4D tasks and demonstrate competitive or state-of-the-art performance in each. Project Page: https://cut3r.github.io/
PDF42February 10, 2025