3DTV: Una rete di interpolazione feedforward per la sintesi di viste in tempo reale

Abstract

La resa in tempo reale da punti di vista liberi richiede un bilanciamento tra la ridondanza multi-camera e i vincoli di latenza delle applicazioni interattive. Affrontiamo questa sfida combinando una geometria leggera con tecniche di apprendimento automatico e proponiamo 3DTV, una rete feedforward per l'interpolazione in tempo reale da viste sparse. Una selezione di triplette basata sul Delaunay garantisce una copertura angolare per ogni vista target. Su questa base, introduciamo un modulo di profondità consapevole della posa che stima una piramide di profondità dal grossolano al fine, consentendo una riproiezione efficiente delle caratteristiche e una fusione consapevole delle occlusioni. A differenza dei metodi che richiedono un'ottimizzazione specifica per scena, 3DTV opera in feedforward senza bisogno di riaddestramento, rendendolo pratico per applicazioni di AR/VR, telepresenza e interattive. I nostri esperimenti su dataset video multi-vista complessi dimostrano che 3DTV raggiunge costantemente un buon equilibrio tra qualità ed efficienza, superando le recenti baseline in tempo reale per nuove viste. Fondamentalmente, 3DTV evita l'uso di proxy espliciti, consentendo una resa robusta in scene diverse. Questo lo rende una soluzione pratica per lo streaming multi-vista a bassa latenza e la resa interattiva. Pagina del progetto: https://stefanmschulz.github.io/3DTV_webpage/

English

Real-time free-viewpoint rendering requires balancing multi-camera redundancy with the latency constraints of interactive applications. We address this challenge by combining lightweight geometry with learning and propose 3DTV, a feedforward network for real-time sparse-view interpolation. A Delaunay-based triplet selection ensures angular coverage for each target view. Building on this, we introduce a pose-aware depth module that estimates a coarse-to-fine depth pyramid, enabling efficient feature reprojection and occlusion-aware blending. Unlike methods that require scene-specific optimization, 3DTV runs feedforward without retraining, making it practical for AR/VR, telepresence, and interactive applications. Our experiments on challenging multi-view video datasets demonstrate that 3DTV consistently achieves a strong balance of quality and efficiency, outperforming recent real-time novel-view baselines. Crucially, 3DTV avoids explicit proxies, enabling robust rendering across diverse scenes. This makes it a practical solution for low-latency multi-view streaming and interactive rendering. Project Page: https://stefanmschulz.github.io/3DTV_webpage/

3DTV: Una rete di interpolazione feedforward per la sintesi di viste in tempo reale

3DTV: A Feedforward Interpolation Network for Real-Time View Synthesis

Abstract

Support