3DTV : Un réseau d'interpolation prédictif pour la synthèse de vues en temps réel
3DTV: A Feedforward Interpolation Network for Real-Time View Synthesis
April 13, 2026
Auteurs: Stefan Schulz, Fernando Edelstein, Hannah Dröge, Matthias B. Hullin, Markus Plack
cs.AI
Résumé
La synthèse d'images en temps réel à point de vue libre nécessite de concilier la redondance multi-caméras avec les contraintes de latence des applications interactives. Nous relevons ce défi en combinant une géométrie légère à l'apprentissage automatique et proposons 3DTV, un réseau feedforward pour l'interpolation en temps réel à partir de vues éparses. Une sélection de triplets basée sur Delaunay garantit une couverture angulaire pour chaque vue cible. Sur cette base, nous introduisons un module de profondeur sensible à la pose qui estime une pyramide de profondeur grossière à fine, permettant une reprojection efficace des caractéristiques et un mélange tenant compte des occlusions. Contrairement aux méthodes nécessitant une optimisation spécifique à la scène, 3DTV fonctionne de manière feedforward sans réentraînement, le rendant pratique pour la RA/RV, la téléprésence et les applications interactives. Nos expériences sur des ensembles de données vidéo multi-vues complexes démontrent que 3DTV atteint constamment un bon équilibre entre qualité et efficacité, surpassant les méthodes récentes de synthèse de vues en temps réel. Fait crucial, 3DTV évite les proxys explicites, permettant un rendu robuste à travers des scènes diverses. Cela en fait une solution pratique pour le streaming multi-vues à faible latence et le rendu interactif.
Page du projet : https://stefanmschulz.github.io/3DTV_webpage/
English
Real-time free-viewpoint rendering requires balancing multi-camera redundancy with the latency constraints of interactive applications. We address this challenge by combining lightweight geometry with learning and propose 3DTV, a feedforward network for real-time sparse-view interpolation. A Delaunay-based triplet selection ensures angular coverage for each target view. Building on this, we introduce a pose-aware depth module that estimates a coarse-to-fine depth pyramid, enabling efficient feature reprojection and occlusion-aware blending. Unlike methods that require scene-specific optimization, 3DTV runs feedforward without retraining, making it practical for AR/VR, telepresence, and interactive applications. Our experiments on challenging multi-view video datasets demonstrate that 3DTV consistently achieves a strong balance of quality and efficiency, outperforming recent real-time novel-view baselines. Crucially, 3DTV avoids explicit proxies, enabling robust rendering across diverse scenes. This makes it a practical solution for low-latency multi-view streaming and interactive rendering.
Project Page: https://stefanmschulz.github.io/3DTV_webpage/