ChatPaper.aiChatPaper

Easi3R : Estimation du mouvement désentrelacé à partir de DUSt3R sans entraînement

Easi3R: Estimating Disentangled Motion from DUSt3R Without Training

March 31, 2025
Auteurs: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen
cs.AI

Résumé

Les récentes avancées dans DUSt3R ont permis une estimation robuste de nuages de points denses et des paramètres de caméra pour des scènes statiques, en exploitant des architectures de réseaux Transformer et une supervision directe sur des ensembles de données 3D à grande échelle. En revanche, l'échelle limitée et la diversité réduite des ensembles de données 4D disponibles constituent un goulot d'étranglement majeur pour l'entraînement d'un modèle 4D hautement généralisable. Cette contrainte a poussé les méthodes 4D conventionnelles à affiner des modèles 3D sur des données vidéo dynamiques évolutives, en utilisant des informations géométriques supplémentaires telles que le flux optique et les profondeurs. Dans ce travail, nous empruntons une voie opposée et introduisons Easi3R, une méthode simple mais efficace pour la reconstruction 4D, ne nécessitant aucun entraînement. Notre approche applique une adaptation de l'attention lors de l'inférence, éliminant ainsi le besoin d'un pré-entraînement à partir de zéro ou d'un affinage du réseau. Nous constatons que les couches d'attention dans DUSt3R encodent intrinsèquement des informations riches sur le mouvement de la caméra et des objets. En démêlant soigneusement ces cartes d'attention, nous obtenons une segmentation précise des régions dynamiques, une estimation de la pose de la caméra et une reconstruction de cartes de points denses 4D. Des expériences approfondies sur des vidéos dynamiques du monde réel démontrent que notre adaptation légère de l'attention surpasse significativement les méthodes état de l'art précédentes, entraînées ou affinées sur des ensembles de données dynamiques étendus. Notre code est disponible publiquement à des fins de recherche sur https://easi3r.github.io/.
English
Recent advances in DUSt3R have enabled robust estimation of dense point clouds and camera parameters of static scenes, leveraging Transformer network architectures and direct supervision on large-scale 3D datasets. In contrast, the limited scale and diversity of available 4D datasets present a major bottleneck for training a highly generalizable 4D model. This constraint has driven conventional 4D methods to fine-tune 3D models on scalable dynamic video data with additional geometric priors such as optical flow and depths. In this work, we take an opposite path and introduce Easi3R, a simple yet efficient training-free method for 4D reconstruction. Our approach applies attention adaptation during inference, eliminating the need for from-scratch pre-training or network fine-tuning. We find that the attention layers in DUSt3R inherently encode rich information about camera and object motion. By carefully disentangling these attention maps, we achieve accurate dynamic region segmentation, camera pose estimation, and 4D dense point map reconstruction. Extensive experiments on real-world dynamic videos demonstrate that our lightweight attention adaptation significantly outperforms previous state-of-the-art methods that are trained or finetuned on extensive dynamic datasets. Our code is publicly available for research purpose at https://easi3r.github.io/

Summary

AI-Generated Summary

PDF72April 1, 2025