3DTV: Прямая интерполяционная сеть для синтеза изображений в реальном времени
3DTV: A Feedforward Interpolation Network for Real-Time View Synthesis
April 13, 2026
Авторы: Stefan Schulz, Fernando Edelstein, Hannah Dröge, Matthias B. Hullin, Markus Plack
cs.AI
Аннотация
Реализация рендеринга со свободной точкой обзора в реальном времени требует балансировки между избыточностью данных с нескольких камер и ограничениями по задержке в интерактивных приложениях. Мы решаем эту задачу, комбинируя упрощенную геометрию с машинным обучением, и представляем 3DTV — прямую (feedforward) сеть для интерполяции разреженных видов в реальном времени. Основанный на триангуляции Делоне выбор троек камер обеспечивает угловое покрытие для каждого целевого ракурса. На этой основе мы вводим модуль оценки глубины, учитывающий позу, который строит пирамиду глубины от грубой к точной, что позволяет эффективно выполнять репроекцию признаков и объединение с учетом окклюзий. В отличие от методов, требующих оптимизации под конкретную сцену, 3DTV работает в прямом проходе без переобучения, что делает его практичным для применений в AR/VR, телеприсутствии и интерактивных системах. Наши эксперименты на сложных наборах данных многовидового видео демонстрируют, что 3DTV стабильно обеспечивает оптимальный баланс качества и эффективности, превосходя современные базовые методы генерации новых видов в реальном времени. Ключевым преимуществом является то, что 3DTV избегает использования явных геометрических прокси, обеспечивая надежный рендеринг в разнообразных сценах. Это делает его практичным решением для потоковой передачи многовидового видео с низкой задержкой и интерактивного рендеринга.
Страница проекта: https://stefanmschulz.github.io/3DTV_webpage/
English
Real-time free-viewpoint rendering requires balancing multi-camera redundancy with the latency constraints of interactive applications. We address this challenge by combining lightweight geometry with learning and propose 3DTV, a feedforward network for real-time sparse-view interpolation. A Delaunay-based triplet selection ensures angular coverage for each target view. Building on this, we introduce a pose-aware depth module that estimates a coarse-to-fine depth pyramid, enabling efficient feature reprojection and occlusion-aware blending. Unlike methods that require scene-specific optimization, 3DTV runs feedforward without retraining, making it practical for AR/VR, telepresence, and interactive applications. Our experiments on challenging multi-view video datasets demonstrate that 3DTV consistently achieves a strong balance of quality and efficiency, outperforming recent real-time novel-view baselines. Crucially, 3DTV avoids explicit proxies, enabling robust rendering across diverse scenes. This makes it a practical solution for low-latency multi-view streaming and interactive rendering.
Project Page: https://stefanmschulz.github.io/3DTV_webpage/