ChatPaper.aiChatPaper

Easi3R: Estimando Movimento Desenredado a partir do DUSt3R Sem Treinamento

Easi3R: Estimating Disentangled Motion from DUSt3R Without Training

March 31, 2025
Autores: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen
cs.AI

Resumo

Os recentes avanços no DUSt3R permitiram a estimativa robusta de nuvens de pontos densas e parâmetros de câmera para cenas estáticas, aproveitando arquiteturas de redes Transformer e supervisão direta em grandes conjuntos de dados 3D. Em contraste, a escala limitada e a diversidade dos conjuntos de dados 4D disponíveis representam um grande gargalo para o treinamento de um modelo 4D altamente generalizável. Essa limitação levou os métodos convencionais 4D a ajustar modelos 3D em dados de vídeo dinâmicos escaláveis com priors geométricos adicionais, como fluxo óptico e profundidades. Neste trabalho, seguimos um caminho oposto e introduzimos o Easi3R, um método simples, porém eficiente, para reconstrução 4D que dispensa treinamento. Nossa abordagem aplica adaptação de atenção durante a inferência, eliminando a necessidade de pré-treinamento do zero ou ajuste fino da rede. Descobrimos que as camadas de atenção no DUSt3R codificam intrinsecamente informações ricas sobre o movimento da câmera e dos objetos. Ao desembaraçar cuidadosamente esses mapas de atenção, alcançamos segmentação precisa de regiões dinâmicas, estimativa de pose da câmera e reconstrução de mapas de pontos densos 4D. Experimentos extensivos em vídeos dinâmicos do mundo real demonstram que nossa adaptação leve de atenção supera significativamente os métodos state-of-the-art anteriores que são treinados ou ajustados em grandes conjuntos de dados dinâmicos. Nosso código está disponível publicamente para fins de pesquisa em https://easi3r.github.io/.
English
Recent advances in DUSt3R have enabled robust estimation of dense point clouds and camera parameters of static scenes, leveraging Transformer network architectures and direct supervision on large-scale 3D datasets. In contrast, the limited scale and diversity of available 4D datasets present a major bottleneck for training a highly generalizable 4D model. This constraint has driven conventional 4D methods to fine-tune 3D models on scalable dynamic video data with additional geometric priors such as optical flow and depths. In this work, we take an opposite path and introduce Easi3R, a simple yet efficient training-free method for 4D reconstruction. Our approach applies attention adaptation during inference, eliminating the need for from-scratch pre-training or network fine-tuning. We find that the attention layers in DUSt3R inherently encode rich information about camera and object motion. By carefully disentangling these attention maps, we achieve accurate dynamic region segmentation, camera pose estimation, and 4D dense point map reconstruction. Extensive experiments on real-world dynamic videos demonstrate that our lightweight attention adaptation significantly outperforms previous state-of-the-art methods that are trained or finetuned on extensive dynamic datasets. Our code is publicly available for research purpose at https://easi3r.github.io/

Summary

AI-Generated Summary

PDF72April 1, 2025