StereoPilot: Aprendizagem de Conversão Estereofônica Unificada e Eficiente por meio de Priors Generativos

Resumo

O rápido crescimento dos displays estereoscópicos, incluindo óculos de realidade virtual e cinemas 3D, levou a uma crescente demanda por conteúdo de vídeo estéreo de alta qualidade. No entanto, a produção de vídeos 3D permanece dispendiosa e complexa, enquanto a conversão automática Monocular-para-Estéreo é dificultada pelas limitações do pipeline multiestágio "Depth-Warp-Inpaint" (DWI). Este paradigma sofre com propagação de erros, ambiguidade de profundidade e inconsistência de formato entre as configurações estéreo paralela e convergente. Para enfrentar esses desafios, apresentamos o UniStereo, o primeiro conjunto de dados unificado e em larga escala para conversão de vídeo estéreo, abrangendo ambos os formatos estéreo para permitir uma avaliação comparativa justa e um treinamento robusto de modelos. Com base neste conjunto de dados, propomos o StereoPilot, um modelo eficiente de avanço que sintetiza diretamente a visão de destino sem depender de mapas de profundidade explícitos ou de amostragem de difusão iterativa. Equipado com um comutador de domínio aprendível e uma função de perda por consistência cíclica, o StereoPilot adapta-se perfeitamente a diferentes formatos estéreo e alcança uma consistência aprimorada. Experimentos extensivos demonstram que o StereoPilot supera significativamente os métodos state-of-the-art tanto em fidelidade visual quanto em eficiência computacional. Página do projeto: https://hit-perfect.github.io/StereoPilot/.

English

The rapid growth of stereoscopic displays, including VR headsets and 3D cinemas, has led to increasing demand for high-quality stereo video content. However, producing 3D videos remains costly and complex, while automatic Monocular-to-Stereo conversion is hindered by the limitations of the multi-stage ``Depth-Warp-Inpaint'' (DWI) pipeline. This paradigm suffers from error propagation, depth ambiguity, and format inconsistency between parallel and converged stereo configurations. To address these challenges, we introduce UniStereo, the first large-scale unified dataset for stereo video conversion, covering both stereo formats to enable fair benchmarking and robust model training. Building upon this dataset, we propose StereoPilot, an efficient feed-forward model that directly synthesizes the target view without relying on explicit depth maps or iterative diffusion sampling. Equipped with a learnable domain switcher and a cycle consistency loss, StereoPilot adapts seamlessly to different stereo formats and achieves improved consistency. Extensive experiments demonstrate that StereoPilot significantly outperforms state-of-the-art methods in both visual fidelity and computational efficiency. Project page: https://hit-perfect.github.io/StereoPilot/.