ChatPaper.aiChatPaper

StereoPilot : Apprentissage d'une conversion stéréo unifiée et efficace via des a priori génératifs

StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

December 18, 2025
papers.authors: Guibao Shen, Yihua Du, Wenhang Ge, Jing He, Chirui Chang, Donghao Zhou, Zhen Yang, Luozhou Wang, Xin Tao, Ying-Cong Chen
cs.AI

papers.abstract

La croissance rapide des écrans stéréoscopiques, incluant les casques de réalité virtuelle et les cinémas 3D, a entraîné une demande croissante de contenu vidéo stéréo de haute qualité. Cependant, la production de vidéos 3D reste coûteuse et complexe, tandis que la conversion automatique monoculaire-stéréo est entravée par les limitations du pipeline multi-étapes « Depth-Warp-Inpaint » (DWI). Ce paradigme souffre de propagation d'erreurs, d'ambiguïté de profondeur et d'incohérence de format entre les configurations stéréo parallèles et convergentes. Pour relever ces défis, nous présentons UniStereo, le premier jeu de données unifié à grande échelle pour la conversion vidéo stéréo, couvrant les deux formats stéréo pour permettre un benchmarking équitable et un entraînement robuste des modèles. S'appuyant sur ce jeu de données, nous proposons StereoPilot, un modèle feed-forward efficace qui synthétise directement la vue cible sans s'appuyer sur des cartes de profondeur explicites ou un échantillonnage itératif par diffusion. Équipé d'un commutateur de domaine adaptable et d'une perte de cohérence cyclique, StereoPilot s'adapte de manière transparente aux différents formats stéréo et atteint une cohérence améliorée. Des expériences approfondies démontrent que StereoPilot surpasse significativement les méthodes de l'état de l'art, à la fois en fidélité visuelle et en efficacité computationnelle. Page du projet : https://hit-perfect.github.io/StereoPilot/.
English
The rapid growth of stereoscopic displays, including VR headsets and 3D cinemas, has led to increasing demand for high-quality stereo video content. However, producing 3D videos remains costly and complex, while automatic Monocular-to-Stereo conversion is hindered by the limitations of the multi-stage ``Depth-Warp-Inpaint'' (DWI) pipeline. This paradigm suffers from error propagation, depth ambiguity, and format inconsistency between parallel and converged stereo configurations. To address these challenges, we introduce UniStereo, the first large-scale unified dataset for stereo video conversion, covering both stereo formats to enable fair benchmarking and robust model training. Building upon this dataset, we propose StereoPilot, an efficient feed-forward model that directly synthesizes the target view without relying on explicit depth maps or iterative diffusion sampling. Equipped with a learnable domain switcher and a cycle consistency loss, StereoPilot adapts seamlessly to different stereo formats and achieves improved consistency. Extensive experiments demonstrate that StereoPilot significantly outperforms state-of-the-art methods in both visual fidelity and computational efficiency. Project page: https://hit-perfect.github.io/StereoPilot/.
PDF342December 20, 2025