3DTV: Ein Feedforward-Interpolationsnetzwerk für Echtzeit-Ansichtssynthese
3DTV: A Feedforward Interpolation Network for Real-Time View Synthesis
April 13, 2026
Autoren: Stefan Schulz, Fernando Edelstein, Hannah Dröge, Matthias B. Hullin, Markus Plack
cs.AI
Zusammenfassung
Echtzeit-Rendering freier Blickwinkel erfordert eine Balance zwischen Mehrkamera-Redundanz und den Latenzanforderungen interaktiver Anwendungen. Wir stellen uns dieser Herausforderung durch die Kombination von leichtgewichtiger Geometrie mit Lernverfahren und präsentieren 3DTV, ein Feedforward-Netzwerk zur Echtzeit-Interpolation spärlicher Ansichten. Eine Delaunay-basierte Triplet-Auswahl gewährleistet eine angemessene Winkelabdeckung für jede Zielansicht. Darauf aufbauend führen wir ein posierungsensitives Tiefenmodul ein, das eine Tiefenpyramide von grob zu fein schätzt und so eine effiziente Feature-Reprojizierung und okklusionsbewusste Verschmelzung ermöglicht. Im Gegensatz zu Methoden, die eine szenenspezifische Optimierung erfordern, arbeitet 3DTV feedforward ohne Neutraining, was es praktisch für AR/VR, Telepräsenz und interaktive Anwendungen macht. Unsere Experimente mit anspruchsvollen Multi-View-Video-Datensätzen zeigen, dass 3DTV konsequent eine gute Balance zwischen Qualität und Effizienz erreicht und aktuelle Echtzeit-Baselines für neue Ansichten übertrifft. Entscheidend ist, dass 3DTV explizite Stellvertretermodelle vermeidet und so robustes Rendering über verschiedene Szenen hinweg ermöglicht. Dies macht es zu einer praktischen Lösung für Multi-View-Streaming mit niedriger Latenz und interaktives Rendering.
Projektseite: https://stefanmschulz.github.io/3DTV_webpage/
English
Real-time free-viewpoint rendering requires balancing multi-camera redundancy with the latency constraints of interactive applications. We address this challenge by combining lightweight geometry with learning and propose 3DTV, a feedforward network for real-time sparse-view interpolation. A Delaunay-based triplet selection ensures angular coverage for each target view. Building on this, we introduce a pose-aware depth module that estimates a coarse-to-fine depth pyramid, enabling efficient feature reprojection and occlusion-aware blending. Unlike methods that require scene-specific optimization, 3DTV runs feedforward without retraining, making it practical for AR/VR, telepresence, and interactive applications. Our experiments on challenging multi-view video datasets demonstrate that 3DTV consistently achieves a strong balance of quality and efficiency, outperforming recent real-time novel-view baselines. Crucially, 3DTV avoids explicit proxies, enabling robust rendering across diverse scenes. This makes it a practical solution for low-latency multi-view streaming and interactive rendering.
Project Page: https://stefanmschulz.github.io/3DTV_webpage/