StereoPilot: Apprendimento di una Conversione Stereo Unificata ed Efficiente tramite Prior Generativi
StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors
December 18, 2025
Autori: Guibao Shen, Yihua Du, Wenhang Ge, Jing He, Chirui Chang, Donghao Zhou, Zhen Yang, Luozhou Wang, Xin Tao, Ying-Cong Chen
cs.AI
Abstract
La rapida diffusione dei display stereoscopici, inclusi i visori per la realtà virtuale e i cinema 3D, ha portato a una crescente domanda di contenuti video stereo di alta qualità. Tuttavia, la produzione di video 3D rimane costosa e complessa, mentre la conversione automatica da monoculare a stereo è ostacolata dalle limitazioni della pipeline multi-stadio "Depth-Warp-Inpaint" (DWI). Questo paradigma soffre di propagazione degli errori, ambiguità nella profondità e inconsistenza del formato tra le configurazioni stereo parallele e convergenti. Per affrontare queste sfide, presentiamo UniStereo, il primo dataset unificato su larga scala per la conversione di video stereo, che copre entrambi i formati stereo per consentire un benchmarking equo e un addestramento robusto dei modelli. Basandoci su questo dataset, proponiamo StereoPilot, un modello feed-forward efficiente che sintetizza direttamente la vista target senza fare affidamento su mappe di profondità esplicite o su campionamenti iterativi di diffusione. Dotato di un commutatore di dominio apprendibile e di una loss di consistenza ciclica, StereoPilot si adatta in modo fluido a diversi formati stereo e raggiunge una consistenza migliorata. Esperimenti estensivi dimostrano che StereoPilot supera significativamente i metodi allo stato dell'arte sia nella fedeltà visiva che nell'efficienza computazionale. Pagina del progetto: https://hit-perfect.github.io/StereoPilot/.
English
The rapid growth of stereoscopic displays, including VR headsets and 3D cinemas, has led to increasing demand for high-quality stereo video content. However, producing 3D videos remains costly and complex, while automatic Monocular-to-Stereo conversion is hindered by the limitations of the multi-stage ``Depth-Warp-Inpaint'' (DWI) pipeline. This paradigm suffers from error propagation, depth ambiguity, and format inconsistency between parallel and converged stereo configurations. To address these challenges, we introduce UniStereo, the first large-scale unified dataset for stereo video conversion, covering both stereo formats to enable fair benchmarking and robust model training. Building upon this dataset, we propose StereoPilot, an efficient feed-forward model that directly synthesizes the target view without relying on explicit depth maps or iterative diffusion sampling. Equipped with a learnable domain switcher and a cycle consistency loss, StereoPilot adapts seamlessly to different stereo formats and achieves improved consistency. Extensive experiments demonstrate that StereoPilot significantly outperforms state-of-the-art methods in both visual fidelity and computational efficiency. Project page: https://hit-perfect.github.io/StereoPilot/.