ChatPaper.aiChatPaper

3DTV: Uma Rede de Interpolação de Feedforward para Síntese de Visualização em Tempo Real

3DTV: A Feedforward Interpolation Network for Real-Time View Synthesis

April 13, 2026
Autores: Stefan Schulz, Fernando Edelstein, Hannah Dröge, Matthias B. Hullin, Markus Plack
cs.AI

Resumo

A renderização em tempo real de pontos de vista livres requer um equilíbrio entre a redundância de múltiplas câmeras e as restrições de latência de aplicações interativas. Abordamos este desafio combinando geometria leve com aprendizado e propomos o 3DTV, uma rede *feedforward* para interpolação em tempo real de vistas esparsas. Uma seleção de triplas baseada em Delaunay garante a cobertura angular para cada vista de destino. Com base nisso, introduzimos um módulo de profundidade consciente da pose que estima uma pirâmide de profundidade do grosso ao refinado, permitindo uma reprojeção eficiente de características e uma mesclagem consciente da oclusão. Diferente de métodos que requerem otimização específica da cena, o 3DTV opera de forma *feedforward* sem necessidade de novo treinamento, tornando-o prático para RA/RV, telepresença e aplicações interativas. Nossos experimentos em conjuntos de dados de vídeo multi-vista desafiadores demonstram que o 3DTV alcança consistentemente um forte equilíbrio entre qualidade e eficiência, superando as linhas de base recentes para geração de novas vistas em tempo real. Crucialmente, o 3DTV evita *proxies* explícitos, permitindo uma renderização robusta em diversas cenas. Isso o torna uma solução prática para transmissão multi-vista de baixa latência e renderização interativa. Página do Projeto: https://stefanmschulz.github.io/3DTV_webpage/
English
Real-time free-viewpoint rendering requires balancing multi-camera redundancy with the latency constraints of interactive applications. We address this challenge by combining lightweight geometry with learning and propose 3DTV, a feedforward network for real-time sparse-view interpolation. A Delaunay-based triplet selection ensures angular coverage for each target view. Building on this, we introduce a pose-aware depth module that estimates a coarse-to-fine depth pyramid, enabling efficient feature reprojection and occlusion-aware blending. Unlike methods that require scene-specific optimization, 3DTV runs feedforward without retraining, making it practical for AR/VR, telepresence, and interactive applications. Our experiments on challenging multi-view video datasets demonstrate that 3DTV consistently achieves a strong balance of quality and efficiency, outperforming recent real-time novel-view baselines. Crucially, 3DTV avoids explicit proxies, enabling robust rendering across diverse scenes. This makes it a practical solution for low-latency multi-view streaming and interactive rendering. Project Page: https://stefanmschulz.github.io/3DTV_webpage/
PDF12April 18, 2026