ChatPaper.aiChatPaper

Easi3R: Оценка разделенного движения из DUSt3R без обучения

Easi3R: Estimating Disentangled Motion from DUSt3R Without Training

March 31, 2025
Авторы: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen
cs.AI

Аннотация

Последние достижения в области DUSt3R позволили добиться надежного оценивания плотных облаков точек и параметров камер для статических сцен, используя архитектуры сетей на основе Transformer и прямое обучение на крупномасштабных 3D-наборах данных. В то же время, ограниченный масштаб и разнообразие доступных 4D-наборов данных представляют собой серьезное препятствие для обучения высокообобщаемой 4D-модели. Это ограничение привело к тому, что традиционные 4D-методы стали дообучать 3D-модели на масштабируемых динамических видеоданных с использованием дополнительных геометрических априорных знаний, таких как оптический поток и глубины. В данной работе мы идем противоположным путем и представляем Easi3R — простой, но эффективный метод 4D-реконструкции, не требующий обучения. Наш подход применяет адаптацию внимания на этапе вывода, устраняя необходимость предварительного обучения с нуля или дообучения сети. Мы обнаружили, что слои внимания в DUSt3R изначально кодируют богатую информацию о движении камеры и объектов. Тщательно разделяя эти карты внимания, мы достигаем точной сегментации динамических областей, оценки позы камеры и реконструкции плотных 4D-карт точек. Многочисленные эксперименты на реальных динамических видео демонстрируют, что наша легковесная адаптация внимания значительно превосходит предыдущие передовые методы, которые обучались или дообучались на обширных динамических наборах данных. Наш код доступен для исследовательских целей по адресу https://easi3r.github.io/.
English
Recent advances in DUSt3R have enabled robust estimation of dense point clouds and camera parameters of static scenes, leveraging Transformer network architectures and direct supervision on large-scale 3D datasets. In contrast, the limited scale and diversity of available 4D datasets present a major bottleneck for training a highly generalizable 4D model. This constraint has driven conventional 4D methods to fine-tune 3D models on scalable dynamic video data with additional geometric priors such as optical flow and depths. In this work, we take an opposite path and introduce Easi3R, a simple yet efficient training-free method for 4D reconstruction. Our approach applies attention adaptation during inference, eliminating the need for from-scratch pre-training or network fine-tuning. We find that the attention layers in DUSt3R inherently encode rich information about camera and object motion. By carefully disentangling these attention maps, we achieve accurate dynamic region segmentation, camera pose estimation, and 4D dense point map reconstruction. Extensive experiments on real-world dynamic videos demonstrate that our lightweight attention adaptation significantly outperforms previous state-of-the-art methods that are trained or finetuned on extensive dynamic datasets. Our code is publicly available for research purpose at https://easi3r.github.io/

Summary

AI-Generated Summary

PDF72April 1, 2025