αDepth : Apprentissage de la décomposition en frontières douces en une seule passe pour la conversion stéréo

Résumé

Modéliser avec précision les limites douces, par exemple les cheveux et le flou de défocalisation, constitue un défi fondamental en conversion stéréoscopique en raison du mélange ambigu entre le premier plan et l'arrière-plan. Les modèles de profondeur existants prédisent principalement une profondeur monocouche, ce qui entraîne une ambiguïté dans la correspondance de profondeur au niveau des limites douces. Bien que les techniques d'incrustation puissent capturer l'opacité pour une modélisation en couches, elles rencontrent souvent des difficultés dans les scènes complexes comportant plusieurs cibles et nécessitent généralement une intervention de l'utilisateur. Cet article présente αDepth, une représentation en couches qui décompose les limites douces pour une conversion stéréoscopique haute-fidélité. Plus précisément, nous résolvons d'abord l'ambiguïté des couleurs et de la profondeur mélangées en estimant les valeurs de couleur et de profondeur en couches au niveau des limites douces. En tenant compte des scènes complexes multi-cibles, nous concevons une représentation alpha circulaire (CAR) qui déplace le paradigme de l'extraction globale des cibles vers la décomposition locale des limites. Contrairement aux méthodes d'incrustation antérieures limitées à un seul premier plan/arrière-plan, CAR permet une inférence efficace au niveau de la scène sans guidance manuelle. Des évaluations approfondies démontrent qu'αDepth atteint des performances de pointe en conversion stéréoscopique, éliminant les débordements d'arrière-plan et les distorsions structurelles au niveau des limites douces.

English

Accurately modeling soft boundaries, e.g., hair and defocus blur, is a fundamental challenge in stereo conversion due to the ambiguous blending of foreground and background. Existing depth models primarily predict single-layer depth, leading to ambiguity in depth correspondence at soft boundaries. While matting techniques can capture opacity for layered modeling, they often struggle in complex scenes with multiple targets and usually require user intervention. This paper introduces αDepth, a layered representation that decomposes soft boundaries for high-fidelity stereo conversion. Specifically, we first resolve mixed color and depth ambiguity by estimating layered color and depth values at soft boundaries. Considering complex multi-target scenes, we design a Circular Alpha Representation (CAR) that shifts the paradigm from global target extraction to local boundary decomposition. Unlike prior matting methods restricted to a single foreground/background, CAR enables efficient scene-level inference without manual guidance. Extensive evaluations demonstrate that αDepth achieves state-of-the-art performance in stereo conversion, eliminating background bleeding and structural distortions at soft boundaries.