ChatPaper.aiChatPaper

StereoPilot: Aprendizaje de Conversión Estéreo Unificada y Eficiente mediante Priors Generativos

StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

December 18, 2025
Autores: Guibao Shen, Yihua Du, Wenhang Ge, Jing He, Chirui Chang, Donghao Zhou, Zhen Yang, Luozhou Wang, Xin Tao, Ying-Cong Chen
cs.AI

Resumen

El rápido crecimiento de las pantallas estereoscópicas, incluyendo los cascos de realidad virtual y los cines 3D, ha generado una demanda creciente de contenido de vídeo estereoscópico de alta calidad. Sin embargo, la producción de vídeos 3D sigue siendo costosa y compleja, mientras que la conversión automática de Monocular a Estéreo se ve obstaculizada por las limitaciones de la pipeline multi-etapa "Profundidad-Deformación-Relleno" (DWI). Este paradigma sufre de propagación de errores, ambigüedad de profundidad e inconsistencia de formato entre las configuraciones estereoscópicas paralelas y convergentes. Para abordar estos desafíos, presentamos UniStereo, el primer conjunto de datos unificado a gran escala para la conversión de vídeo estereoscópico, que cubre ambos formatos estéreo para permitir una evaluación comparativa justa y un entrenamiento robusto de modelos. Basándonos en este conjunto de datos, proponemos StereoPilot, un modelo eficiente de propagación directa que sintetiza directamente la vista objetivo sin depender de mapas de profundidad explícitos o de un muestreo iterativo por difusión. Equipado con un conmutador de dominio entrenable y una pérdida de consistencia cíclica, StereoPilot se adapta sin problemas a diferentes formatos estéreo y logra una consistencia mejorada. Experimentos exhaustivos demuestran que StereoPilot supera significativamente a los métodos más avanzados tanto en fidelidad visual como en eficiencia computacional. Página del proyecto: https://hit-perfect.github.io/StereoPilot/.
English
The rapid growth of stereoscopic displays, including VR headsets and 3D cinemas, has led to increasing demand for high-quality stereo video content. However, producing 3D videos remains costly and complex, while automatic Monocular-to-Stereo conversion is hindered by the limitations of the multi-stage ``Depth-Warp-Inpaint'' (DWI) pipeline. This paradigm suffers from error propagation, depth ambiguity, and format inconsistency between parallel and converged stereo configurations. To address these challenges, we introduce UniStereo, the first large-scale unified dataset for stereo video conversion, covering both stereo formats to enable fair benchmarking and robust model training. Building upon this dataset, we propose StereoPilot, an efficient feed-forward model that directly synthesizes the target view without relying on explicit depth maps or iterative diffusion sampling. Equipped with a learnable domain switcher and a cycle consistency loss, StereoPilot adapts seamlessly to different stereo formats and achieves improved consistency. Extensive experiments demonstrate that StereoPilot significantly outperforms state-of-the-art methods in both visual fidelity and computational efficiency. Project page: https://hit-perfect.github.io/StereoPilot/.
PDF342December 20, 2025