ChatPaper.aiChatPaper

Kontinuierliches 3D-Wahrnehmungsmodell mit persistentem Zustand.

Continuous 3D Perception Model with Persistent State

January 21, 2025
Autoren: Qianqian Wang, Yifei Zhang, Aleksander Holynski, Alexei A. Efros, Angjoo Kanazawa
cs.AI

Zusammenfassung

Wir präsentieren einen vereinheitlichten Rahmen, der in der Lage ist, eine breite Palette von 3D-Aufgaben zu lösen. Unser Ansatz umfasst ein zustandsbehaftetes rekurrentes Modell, das seinen Zustandsrepräsentation kontinuierlich mit jeder neuen Beobachtung aktualisiert. Basierend auf einer Bildsequenz kann dieser sich entwickelnde Zustand verwendet werden, um metrische Punktwolken (3D-Punkte pro Pixel) für jedes neue Eingangsbild in Echtzeit zu generieren. Diese Punktwolken befinden sich in einem gemeinsamen Koordinatensystem und können zu einer kohärenten, dichten Szenenrekonstruktion akkumuliert werden, die sich mit dem Eintreffen neuer Bilder aktualisiert. Unser Modell, genannt CUT3R (Continuous Updating Transformer for 3D Reconstruction), erfasst umfassende Vorkenntnisse über reale Szenen: Es kann nicht nur präzise Punktwolken aus Bildbeobachtungen vorhersagen, sondern auch nicht gesehene Bereiche der Szene durch Erkundung virtueller, unbeobachteter Ansichten erschließen. Unsere Methode ist einfach, aber äußerst flexibel und akzeptiert natürlicherweise unterschiedliche Längen von Bildern, die entweder Videosequenzen oder ungeordnete Fotosammlungen sein können, die sowohl statische als auch dynamische Inhalte enthalten. Wir evaluieren unsere Methode in verschiedenen 3D/4D-Aufgaben und zeigen in jeder davon eine wettbewerbsfähige oder hochmoderne Leistung. Projektseite: https://cut3r.github.io/
English
We present a unified framework capable of solving a broad range of 3D tasks. Our approach features a stateful recurrent model that continuously updates its state representation with each new observation. Given a stream of images, this evolving state can be used to generate metric-scale pointmaps (per-pixel 3D points) for each new input in an online fashion. These pointmaps reside within a common coordinate system, and can be accumulated into a coherent, dense scene reconstruction that updates as new images arrive. Our model, called CUT3R (Continuous Updating Transformer for 3D Reconstruction), captures rich priors of real-world scenes: not only can it predict accurate pointmaps from image observations, but it can also infer unseen regions of the scene by probing at virtual, unobserved views. Our method is simple yet highly flexible, naturally accepting varying lengths of images that may be either video streams or unordered photo collections, containing both static and dynamic content. We evaluate our method on various 3D/4D tasks and demonstrate competitive or state-of-the-art performance in each. Project Page: https://cut3r.github.io/

Summary

AI-Generated Summary

PDF42February 10, 2025