ChatPaper.aiChatPaper

StereoPilot: Lernen einheitlicher und effizienter Stereoumwandlung durch generative A-priori-Informationen

StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

December 18, 2025
papers.authors: Guibao Shen, Yihua Du, Wenhang Ge, Jing He, Chirui Chang, Donghao Zhou, Zhen Yang, Luozhou Wang, Xin Tao, Ying-Cong Chen
cs.AI

papers.abstract

Das rasante Wachstum stereoskopischer Displays, einschließlich VR-Headsets und 3D-Kinos, hat zu einer steigenden Nachfrage nach hochwertigem Stereo-Videomaterial geführt. Die Produktion von 3D-Videos bleibt jedoch kostspielig und komplex, während die automatische Monokular-zu-Stereo-Umwandlung durch die Grenzen der mehrstufigen „Depth-Warp-Inpaint“- (DWI) Pipeline behindert wird. Dieses Paradigma leidet unter Fehlerfortpflanzung, Tiefenmehrdeutigkeit und Formatinkonsistenz zwischen parallelen und konvergenten Stereo-Konfigurationen. Um diese Herausforderungen zu bewältigen, stellen wir UniStereo vor, den ersten umfassenden, vereinheitlichten Datensatz für die Stereo-Videoumwandlung, der beide Stereo-Formate abdeckt, um faire Benchmarks und robustes Modelltraining zu ermöglichen. Aufbauend auf diesem Datensatz schlagen wir StereoPilot vor, ein effizientes Vorwärtsmodell, das die Zielansicht direkt synthetisiert, ohne auf explizite Tiefenkarten oder iterative Diffusionssammlung angewiesen zu sein. Ausgestattet mit einem lernbaren Domain-Switcher und einem Zyklus-Konsistenzverlust passt sich StereoPilot nahtlos an verschiedene Stereo-Formate an und erreicht eine verbesserte Konsistenz. Umfangreiche Experimente zeigen, dass StereoPilot state-of-the-art-Methoden sowohl in visueller Qualität als auch in Recheneffizienz deutlich übertrifft. Projektseite: https://hit-perfect.github.io/StereoPilot/.
English
The rapid growth of stereoscopic displays, including VR headsets and 3D cinemas, has led to increasing demand for high-quality stereo video content. However, producing 3D videos remains costly and complex, while automatic Monocular-to-Stereo conversion is hindered by the limitations of the multi-stage ``Depth-Warp-Inpaint'' (DWI) pipeline. This paradigm suffers from error propagation, depth ambiguity, and format inconsistency between parallel and converged stereo configurations. To address these challenges, we introduce UniStereo, the first large-scale unified dataset for stereo video conversion, covering both stereo formats to enable fair benchmarking and robust model training. Building upon this dataset, we propose StereoPilot, an efficient feed-forward model that directly synthesizes the target view without relying on explicit depth maps or iterative diffusion sampling. Equipped with a learnable domain switcher and a cycle consistency loss, StereoPilot adapts seamlessly to different stereo formats and achieves improved consistency. Extensive experiments demonstrate that StereoPilot significantly outperforms state-of-the-art methods in both visual fidelity and computational efficiency. Project page: https://hit-perfect.github.io/StereoPilot/.
PDF342December 20, 2025