ChatPaper.aiChatPaper

Easi3R: Het schatten van ontvlochten beweging uit DUSt3R zonder training

Easi3R: Estimating Disentangled Motion from DUSt3R Without Training

March 31, 2025
Auteurs: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen
cs.AI

Samenvatting

Recente vooruitgang in DUSt3R heeft robuuste schatting mogelijk gemaakt van dichte puntenwolken en cameraparameters van statische scènes, waarbij gebruik wordt gemaakt van Transformer-netwerkarchitecturen en directe supervisie op grootschalige 3D-datasets. Daarentegen vormen de beperkte schaal en diversiteit van beschikbare 4D-datasets een grote bottleneck voor het trainen van een zeer generaliseerbaar 4D-model. Deze beperking heeft conventionele 4D-methoden ertoe gedreven om 3D-modellen te finetunen op schaalbare dynamische videogegevens met aanvullende geometrische priors zoals optische stroming en dieptes. In dit werk nemen we een tegenovergestelde aanpak en introduceren we Easi3R, een eenvoudige maar efficiënte trainingsvrije methode voor 4D-reconstructie. Onze benadering past aandachtadaptatie toe tijdens inferentie, waardoor de noodzaak voor training vanaf nul of netwerkfinetuning wordt geëlimineerd. We ontdekken dat de aandachtlagen in DUSt3R van nature rijke informatie coderen over camera- en objectbeweging. Door deze aandachtkaarten zorgvuldig te ontwarren, bereiken we nauwkeurige dynamische regiossegmentatie, cameraposeschatting en 4D-dichte puntenkaartreconstructie. Uitgebreide experimenten op real-world dynamische video's tonen aan dat onze lichtgewicht aandachtadaptatie aanzienlijk beter presteert dan eerdere state-of-the-art methoden die zijn getraind of gefinetuned op uitgebreide dynamische datasets. Onze code is publiekelijk beschikbaar voor onderzoeksdoeleinden op https://easi3r.github.io/.
English
Recent advances in DUSt3R have enabled robust estimation of dense point clouds and camera parameters of static scenes, leveraging Transformer network architectures and direct supervision on large-scale 3D datasets. In contrast, the limited scale and diversity of available 4D datasets present a major bottleneck for training a highly generalizable 4D model. This constraint has driven conventional 4D methods to fine-tune 3D models on scalable dynamic video data with additional geometric priors such as optical flow and depths. In this work, we take an opposite path and introduce Easi3R, a simple yet efficient training-free method for 4D reconstruction. Our approach applies attention adaptation during inference, eliminating the need for from-scratch pre-training or network fine-tuning. We find that the attention layers in DUSt3R inherently encode rich information about camera and object motion. By carefully disentangling these attention maps, we achieve accurate dynamic region segmentation, camera pose estimation, and 4D dense point map reconstruction. Extensive experiments on real-world dynamic videos demonstrate that our lightweight attention adaptation significantly outperforms previous state-of-the-art methods that are trained or finetuned on extensive dynamic datasets. Our code is publicly available for research purpose at https://easi3r.github.io/

Summary

AI-Generated Summary

PDF72April 1, 2025