StereoPilot: 생성적 사전 지식을 통한 통합적이고 효율적인 스테레오 변환 학습
StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors
December 18, 2025
저자: Guibao Shen, Yihua Du, Wenhang Ge, Jing He, Chirui Chang, Donghao Zhou, Zhen Yang, Luozhou Wang, Xin Tao, Ying-Cong Chen
cs.AI
초록
VR 헤드셋과 3D 영화관을 포함한 입체 디스플레이의 급속한 성장으로 고품질 스테레오 비디오 콘텐츠에 대한 수요가 증가하고 있습니다. 그러나 3D 비디오 제작은 여전히 비용이 많이 들고 복잡한 반면, 단안 영상-스테레오 변환의 자동화는 다단계 '깊이-왜곡-인페인팅'(DWI) 파이프라인의 한계로 인해 어려움을 겪고 있습니다. 이 패러다임은 오류 전파, 깊이 모호성, 그리고 평행 및 수렴형 스테레오 구성 형식 간의 불일치 문제를 안고 있습니다. 이러한 문제를 해결하기 위해 본 연구에서는 양쪽 스테레오 형식을 모두 포괄하여 공정한 벤치마킹과 강력한 모델 학습을 가능하게 하는 최초의 대규모 통합 스테레오 비디오 변환 데이터셋인 UniStereo를 소개합니다. 이 데이터셋을 기반으로 명시적 깊이 지도나 반복적 확산 샘플링에 의존하지 않고 타겟 뷰를 직접 합성하는 효율적인 순전파 모델인 StereoPilot을 제안합니다. 학습 가능한 도메인 전환기와 순환 일관성 손실을 통해 StereoPilot은 다양한 스테레오 형식에 원활하게 적응하고 향상된 일관성을 달성합니다. 폭넓은 실험을 통해 StereoPilot이 시각적 충실도와 계산 효율성 모두에서 최신 방법들을 크게 능가함을 입증합니다. 프로젝트 페이지: https://hit-perfect.github.io/StereoPilot/.
English
The rapid growth of stereoscopic displays, including VR headsets and 3D cinemas, has led to increasing demand for high-quality stereo video content. However, producing 3D videos remains costly and complex, while automatic Monocular-to-Stereo conversion is hindered by the limitations of the multi-stage ``Depth-Warp-Inpaint'' (DWI) pipeline. This paradigm suffers from error propagation, depth ambiguity, and format inconsistency between parallel and converged stereo configurations. To address these challenges, we introduce UniStereo, the first large-scale unified dataset for stereo video conversion, covering both stereo formats to enable fair benchmarking and robust model training. Building upon this dataset, we propose StereoPilot, an efficient feed-forward model that directly synthesizes the target view without relying on explicit depth maps or iterative diffusion sampling. Equipped with a learnable domain switcher and a cycle consistency loss, StereoPilot adapts seamlessly to different stereo formats and achieves improved consistency. Extensive experiments demonstrate that StereoPilot significantly outperforms state-of-the-art methods in both visual fidelity and computational efficiency. Project page: https://hit-perfect.github.io/StereoPilot/.