ChatPaper.aiChatPaper

Codifica Veloce 3D Basata su Encoder da Video Casuali tramite Elaborazione di Tracce Puntuali

Fast Encoder-Based 3D from Casual Videos via Point Track Processing

April 10, 2024
Autori: Yoni Kasten, Wuyue Lu, Haggai Maron
cs.AI

Abstract

Questo articolo affronta la sfida di lunga data della ricostruzione di strutture 3D da video con contenuti dinamici. Gli approcci attuali a questo problema non sono stati progettati per operare su video informali registrati da telecamere standard o richiedono un lungo tempo di ottimizzazione. Con l'obiettivo di migliorare significativamente l'efficienza degli approcci precedenti, presentiamo TracksTo4D, un approccio basato sull'apprendimento che consente di inferire la struttura 3D e le posizioni delle telecamere da contenuti dinamici provenienti da video informali utilizzando un singolo passaggio efficiente in avanti. Per raggiungere questo obiettivo, proponiamo di operare direttamente su tracce di punti 2D in ingresso e progettare un'architettura adatta per elaborare tracce di punti 2D. La nostra architettura proposta è progettata con due principi chiave in mente: (1) tiene conto delle simmetrie intrinseche presenti nei dati delle tracce di punti in ingresso e (2) assume che i modelli di movimento possano essere rappresentati in modo efficace utilizzando un'approssimazione a basso rango. TracksTo4D viene addestrato in modo non supervisionato su un dataset di video informali utilizzando solo le tracce di punti 2D estratte dai video, senza alcuna supervisione 3D. I nostri esperimenti mostrano che TracksTo4D può ricostruire una nuvola di punti temporale e le posizioni delle telecamere del video sottostante con un'accuratezza paragonabile ai metodi all'avanguardia, riducendo drasticamente il tempo di esecuzione fino al 95%. Mostriamo inoltre che TracksTo4D generalizza bene a video non visti di categorie semantiche non viste al momento dell'inferenza.
English
This paper addresses the long-standing challenge of reconstructing 3D structures from videos with dynamic content. Current approaches to this problem were not designed to operate on casual videos recorded by standard cameras or require a long optimization time. Aiming to significantly improve the efficiency of previous approaches, we present TracksTo4D, a learning-based approach that enables inferring 3D structure and camera positions from dynamic content originating from casual videos using a single efficient feed-forward pass. To achieve this, we propose operating directly over 2D point tracks as input and designing an architecture tailored for processing 2D point tracks. Our proposed architecture is designed with two key principles in mind: (1) it takes into account the inherent symmetries present in the input point tracks data, and (2) it assumes that the movement patterns can be effectively represented using a low-rank approximation. TracksTo4D is trained in an unsupervised way on a dataset of casual videos utilizing only the 2D point tracks extracted from the videos, without any 3D supervision. Our experiments show that TracksTo4D can reconstruct a temporal point cloud and camera positions of the underlying video with accuracy comparable to state-of-the-art methods, while drastically reducing runtime by up to 95\%. We further show that TracksTo4D generalizes well to unseen videos of unseen semantic categories at inference time.

Summary

AI-Generated Summary

PDF42February 3, 2025