Easi3R: Schätzung entwirrter Bewegung aus DUSt3R ohne Training
Easi3R: Estimating Disentangled Motion from DUSt3R Without Training
March 31, 2025
Autoren: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen
cs.AI
Zusammenfassung
Jüngste Fortschritte in DUSt3R haben die robuste Schätzung von dichten Punktwolken und Kameraparametern statischer Szenen ermöglicht, wobei Transformer-Netzwerkarchitekturen und direkte Überwachung auf groß angelegten 3D-Datensätzen genutzt werden. Im Gegensatz dazu stellen der begrenzte Umfang und die mangelnde Vielfalt verfügbarer 4D-Datensätze ein großes Hindernis für das Training eines hochgradig generalisierbaren 4D-Modells dar. Diese Einschränkung hat konventionelle 4D-Methoden dazu veranlasst, 3D-Modelle auf skalierbaren dynamischen Videodaten mit zusätzlichen geometrischen Priorwissen wie optischem Fluss und Tiefen feinzutunen. In dieser Arbeit gehen wir einen entgegengesetzten Weg und führen Easi3R ein, eine einfache, aber effiziente trainingsfreie Methode für die 4D-Rekonstruktion. Unser Ansatz wendet Aufmerksamkeitsanpassung während der Inferenz an und eliminiert die Notwendigkeit eines vollständigen Vor-Trainings oder Netzwerk-Feintunings. Wir stellen fest, dass die Aufmerksamkeitsschichten in DUSt3R inhärent reichhaltige Informationen über Kamera- und Objektbewegungen kodieren. Durch sorgfältige Entflechtung dieser Aufmerksamkeitskarten erreichen wir eine präzise dynamische Regionensegmentierung, Kameraposenschätzung und 4D-dichte Punktkartenrekonstruktion. Umfangreiche Experimente mit realen dynamischen Videos zeigen, dass unsere leichte Aufmerksamkeitsanpassung bisherige state-of-the-art-Methoden, die auf umfangreichen dynamischen Datensätzen trainiert oder feingestimmt wurden, deutlich übertreffen. Unser Code ist zu Forschungszwecken öffentlich verfügbar unter https://easi3r.github.io/.
English
Recent advances in DUSt3R have enabled robust estimation of dense point
clouds and camera parameters of static scenes, leveraging Transformer network
architectures and direct supervision on large-scale 3D datasets. In contrast,
the limited scale and diversity of available 4D datasets present a major
bottleneck for training a highly generalizable 4D model. This constraint has
driven conventional 4D methods to fine-tune 3D models on scalable dynamic video
data with additional geometric priors such as optical flow and depths. In this
work, we take an opposite path and introduce Easi3R, a simple yet efficient
training-free method for 4D reconstruction. Our approach applies attention
adaptation during inference, eliminating the need for from-scratch pre-training
or network fine-tuning. We find that the attention layers in DUSt3R inherently
encode rich information about camera and object motion. By carefully
disentangling these attention maps, we achieve accurate dynamic region
segmentation, camera pose estimation, and 4D dense point map reconstruction.
Extensive experiments on real-world dynamic videos demonstrate that our
lightweight attention adaptation significantly outperforms previous
state-of-the-art methods that are trained or finetuned on extensive dynamic
datasets. Our code is publicly available for research purpose at
https://easi3r.github.io/Summary
AI-Generated Summary