ChatPaper.aiChatPaper

StereoPilot: Обучение унифицированному и эффективному стереопреобразованию с использованием генеративных априорных моделей

StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

December 18, 2025
Авторы: Guibao Shen, Yihua Du, Wenhang Ge, Jing He, Chirui Chang, Donghao Zhou, Zhen Yang, Luozhou Wang, Xin Tao, Ying-Cong Chen
cs.AI

Аннотация

Быстрое развитие стереоскопических дисплеев, включая VR-шлемы и 3D-кинотеатры, привело к растущему спросу на высококачественный стереоскопический видеоконтент. Однако создание 3D-видео остается дорогостоящим и сложным процессом, в то время как автоматическое монокулярно-стереоскопическое преобразование ограничено недостатками многокаскадного конвейера «Глубина-Трансформация-Заполнение» (Depth-Warp-Inpaint, DWI). Данная парадигма страдает от распространения ошибок, неоднозначности определения глубины и несовместимости форматов между параллельной и сходящейся стереоконфигурациями. Для решения этих проблем мы представляем UniStereo — первую крупномасштабную унифицированную базу данных для стереоскопического преобразования видео, охватывающую оба стереоформата для обеспечения объективного сравнительного анализа и надежного обучения моделей. На основе этого набора данных мы предлагаем StereoPilot — эффективную прямую модель, которая напрямую синтезирует целевой вид, не полагаясь на явные карты глубины или итеративную диффузионную выборку. Оснащенная обучаемым переключателем доменов и функцией потерь на основе цикловой согласованности, модель StereoPilot легко адаптируется к различным стереоформатам и обеспечивает повышенную согласованность. Многочисленные эксперименты демонстрируют, что StereoPilot существенно превосходит современные методы как по визуальному качеству, так и по вычислительной эффективности. Страница проекта: https://hit-perfect.github.io/StereoPilot/.
English
The rapid growth of stereoscopic displays, including VR headsets and 3D cinemas, has led to increasing demand for high-quality stereo video content. However, producing 3D videos remains costly and complex, while automatic Monocular-to-Stereo conversion is hindered by the limitations of the multi-stage ``Depth-Warp-Inpaint'' (DWI) pipeline. This paradigm suffers from error propagation, depth ambiguity, and format inconsistency between parallel and converged stereo configurations. To address these challenges, we introduce UniStereo, the first large-scale unified dataset for stereo video conversion, covering both stereo formats to enable fair benchmarking and robust model training. Building upon this dataset, we propose StereoPilot, an efficient feed-forward model that directly synthesizes the target view without relying on explicit depth maps or iterative diffusion sampling. Equipped with a learnable domain switcher and a cycle consistency loss, StereoPilot adapts seamlessly to different stereo formats and achieves improved consistency. Extensive experiments demonstrate that StereoPilot significantly outperforms state-of-the-art methods in both visual fidelity and computational efficiency. Project page: https://hit-perfect.github.io/StereoPilot/.
PDF342December 20, 2025