ChatPaper.aiChatPaper

Codificador rápido basado en 3D a partir de videos casuales mediante el procesamiento de seguimiento de puntos.

Fast Encoder-Based 3D from Casual Videos via Point Track Processing

April 10, 2024
Autores: Yoni Kasten, Wuyue Lu, Haggai Maron
cs.AI

Resumen

Este documento aborda el desafío de larga data de reconstruir estructuras 3D a partir de videos con contenido dinámico. Los enfoques actuales para este problema no fueron diseñados para operar en videos casuales grabados por cámaras estándar o requieren un largo tiempo de optimización. Con el objetivo de mejorar significativamente la eficiencia de los enfoques previos, presentamos TracksTo4D, un enfoque basado en aprendizaje que permite inferir la estructura 3D y posiciones de cámara a partir de contenido dinámico proveniente de videos casuales utilizando un solo pase eficiente hacia adelante. Para lograr esto, proponemos operar directamente sobre pistas de puntos 2D como entrada y diseñar una arquitectura adaptada para procesar pistas de puntos 2D. Nuestra arquitectura propuesta está diseñada con dos principios clave en mente: (1) tiene en cuenta las simetrías inherentes presentes en los datos de pistas de puntos de entrada, y (2) asume que los patrones de movimiento pueden ser representados de manera efectiva utilizando una aproximación de rango bajo. TracksTo4D se entrena de manera no supervisada en un conjunto de datos de videos casuales utilizando solo las pistas de puntos 2D extraídas de los videos, sin ninguna supervisión 3D. Nuestros experimentos muestran que TracksTo4D puede reconstruir una nube de puntos temporal y posiciones de cámara del video subyacente con una precisión comparable a los métodos de vanguardia, al tiempo que reduce drásticamente el tiempo de ejecución hasta en un 95\%. Además, demostramos que TracksTo4D generaliza bien a videos no vistos de categorías semánticas no vistas en el momento de la inferencia.
English
This paper addresses the long-standing challenge of reconstructing 3D structures from videos with dynamic content. Current approaches to this problem were not designed to operate on casual videos recorded by standard cameras or require a long optimization time. Aiming to significantly improve the efficiency of previous approaches, we present TracksTo4D, a learning-based approach that enables inferring 3D structure and camera positions from dynamic content originating from casual videos using a single efficient feed-forward pass. To achieve this, we propose operating directly over 2D point tracks as input and designing an architecture tailored for processing 2D point tracks. Our proposed architecture is designed with two key principles in mind: (1) it takes into account the inherent symmetries present in the input point tracks data, and (2) it assumes that the movement patterns can be effectively represented using a low-rank approximation. TracksTo4D is trained in an unsupervised way on a dataset of casual videos utilizing only the 2D point tracks extracted from the videos, without any 3D supervision. Our experiments show that TracksTo4D can reconstruct a temporal point cloud and camera positions of the underlying video with accuracy comparable to state-of-the-art methods, while drastically reducing runtime by up to 95\%. We further show that TracksTo4D generalizes well to unseen videos of unseen semantic categories at inference time.

Summary

AI-Generated Summary

PDF42February 3, 2025