αDepth: Aprendizagem de Decomposição de Fronteira Suave com Passagem Única para Conversão Estéreo

Resumo

Modelar com precisão limites suaves, por exemplo, cabelos e desfoque de desfoco, é um desafio fundamental na conversão estéreo devido à mistura ambígua de primeiro plano e fundo. Modelos de profundidade existentes preveem principalmente profundidade de camada única, gerando ambiguidade na correspondência de profundidade em limites suaves. Embora técnicas de matting possam capturar opacidade para modelagem em camadas, elas frequentemente enfrentam dificuldades em cenas complexas com múltiplos alvos e geralmente exigem intervenção do usuário. Este artigo apresenta αDepth, uma representação em camadas que decompõe limites suaves para conversão estéreo de alta fidelidade. Especificamente, primeiro resolvemos a ambiguidade de cor e profundidade mista estimando valores de cor e profundidade em camadas em limites suaves. Considerando cenas complexas com múltiplos alvos, projetamos uma Representação Alfa Circular (CAR) que desloca o paradigma da extração global de alvos para a decomposição local de limites. Diferente de métodos de matting anteriores restritos a um único primeiro plano/fundo, a CAR permite inferência eficiente em nível de cena sem orientação manual. Avaliações extensivas demonstram que αDepth alcança desempenho de última geração em conversão estéreo, eliminando sangramento de fundo e distorções estruturais em limites suaves.

English

Accurately modeling soft boundaries, e.g., hair and defocus blur, is a fundamental challenge in stereo conversion due to the ambiguous blending of foreground and background. Existing depth models primarily predict single-layer depth, leading to ambiguity in depth correspondence at soft boundaries. While matting techniques can capture opacity for layered modeling, they often struggle in complex scenes with multiple targets and usually require user intervention. This paper introduces αDepth, a layered representation that decomposes soft boundaries for high-fidelity stereo conversion. Specifically, we first resolve mixed color and depth ambiguity by estimating layered color and depth values at soft boundaries. Considering complex multi-target scenes, we design a Circular Alpha Representation (CAR) that shifts the paradigm from global target extraction to local boundary decomposition. Unlike prior matting methods restricted to a single foreground/background, CAR enables efficient scene-level inference without manual guidance. Extensive evaluations demonstrate that αDepth achieves state-of-the-art performance in stereo conversion, eliminating background bleeding and structural distortions at soft boundaries.