3DTV: Een feedforward-interpolatienetwerk voor real-time viewsynthese
3DTV: A Feedforward Interpolation Network for Real-Time View Synthesis
April 13, 2026
Auteurs: Stefan Schulz, Fernando Edelstein, Hannah Dröge, Matthias B. Hullin, Markus Plack
cs.AI
Samenvatting
Real-time free-viewpoint rendering vereist een balans tussen redundantie van meerdere camera's en de latentiebeperkingen van interactieve toepassingen. Wij pakken deze uitdaging aan door lichtgewicht geometrie te combineren met machine learning en presenteren 3DTV, een feedforward-netwerk voor real-time interpolatie van sparse views. Een op Delaunay-triangulatie gebaseerde tripletselectie zorgt voor voldoende hoekdekking voor elk doelbeeld. Hierop voortbordurend introduceren we een pose-aware depth-module die een coarse-to-fine dieptepiramide schat, wat efficiënte feature-reprojectie en occlusiebewuste blending mogelijk maakt. In tegenstelling tot methoden die scene-specifieke optimalisatie vereisen, werkt 3DTV feedforward zonder hertraining, wat het praktisch maakt voor AR/VR, telepresence en interactieve toepassingen. Onze experimenten op uitdagende multi-view videodatasets tonen aan dat 3DTV consequent een sterke balans tussen kwaliteit en efficiëntie bereikt, en recente real-time novel-view baseline-methoden overtreft. Cruciaal is dat 3DTV expliciete proxies vermijdt, wat robuuste rendering in uiteenlopende scènes mogelijk maakt. Dit maakt het een praktische oplossing voor multi-view streaming met lage latentie en interactieve rendering.
Projectpagina: https://stefanmschulz.github.io/3DTV_webpage/
English
Real-time free-viewpoint rendering requires balancing multi-camera redundancy with the latency constraints of interactive applications. We address this challenge by combining lightweight geometry with learning and propose 3DTV, a feedforward network for real-time sparse-view interpolation. A Delaunay-based triplet selection ensures angular coverage for each target view. Building on this, we introduce a pose-aware depth module that estimates a coarse-to-fine depth pyramid, enabling efficient feature reprojection and occlusion-aware blending. Unlike methods that require scene-specific optimization, 3DTV runs feedforward without retraining, making it practical for AR/VR, telepresence, and interactive applications. Our experiments on challenging multi-view video datasets demonstrate that 3DTV consistently achieves a strong balance of quality and efficiency, outperforming recent real-time novel-view baselines. Crucially, 3DTV avoids explicit proxies, enabling robust rendering across diverse scenes. This makes it a practical solution for low-latency multi-view streaming and interactive rendering.
Project Page: https://stefanmschulz.github.io/3DTV_webpage/