Easi3R: Estimación de movimiento desenredado a partir de DUSt3R sin entrenamiento
Easi3R: Estimating Disentangled Motion from DUSt3R Without Training
March 31, 2025
Autores: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen
cs.AI
Resumen
Los recientes avances en DUSt3R han permitido la estimación robusta de nubes densas de puntos y parámetros de cámara para escenas estáticas, aprovechando arquitecturas de redes Transformer y supervisión directa en conjuntos de datos 3D a gran escala. En contraste, la escala limitada y la diversidad reducida de los conjuntos de datos 4D disponibles representan un cuello de botella importante para entrenar un modelo 4D altamente generalizable. Esta limitación ha llevado a los métodos convencionales 4D a ajustar modelos 3D en datos de video dinámicos escalables, utilizando priores geométricos adicionales como flujo óptico y profundidades. En este trabajo, tomamos un camino opuesto e introducimos Easi3R, un método simple pero eficiente para la reconstrucción 4D que no requiere entrenamiento. Nuestro enfoque aplica adaptación de atención durante la inferencia, eliminando la necesidad de preentrenamiento desde cero o ajuste fino de la red. Descubrimos que las capas de atención en DUSt3R codifican inherentemente información rica sobre el movimiento de la cámara y los objetos. Al desenredar cuidadosamente estos mapas de atención, logramos una segmentación precisa de regiones dinámicas, estimación de la pose de la cámara y reconstrucción de mapas densos de puntos 4D. Experimentos exhaustivos en videos dinámicos del mundo real demuestran que nuestra adaptación de atención ligera supera significativamente a los métodos anteriores de vanguardia que están entrenados o ajustados en extensos conjuntos de datos dinámicos. Nuestro código está disponible públicamente con fines de investigación en https://easi3r.github.io/.
English
Recent advances in DUSt3R have enabled robust estimation of dense point
clouds and camera parameters of static scenes, leveraging Transformer network
architectures and direct supervision on large-scale 3D datasets. In contrast,
the limited scale and diversity of available 4D datasets present a major
bottleneck for training a highly generalizable 4D model. This constraint has
driven conventional 4D methods to fine-tune 3D models on scalable dynamic video
data with additional geometric priors such as optical flow and depths. In this
work, we take an opposite path and introduce Easi3R, a simple yet efficient
training-free method for 4D reconstruction. Our approach applies attention
adaptation during inference, eliminating the need for from-scratch pre-training
or network fine-tuning. We find that the attention layers in DUSt3R inherently
encode rich information about camera and object motion. By carefully
disentangling these attention maps, we achieve accurate dynamic region
segmentation, camera pose estimation, and 4D dense point map reconstruction.
Extensive experiments on real-world dynamic videos demonstrate that our
lightweight attention adaptation significantly outperforms previous
state-of-the-art methods that are trained or finetuned on extensive dynamic
datasets. Our code is publicly available for research purpose at
https://easi3r.github.io/Summary
AI-Generated Summary