αDepth: Aprendizaje de Descomposición de Límites Suaves de un Solo Paso para Conversión Estéreo

Resumen

Modelar con precisión los límites suaves, por ejemplo, el cabello y el desenfoque, es un desafío fundamental en la conversión estéreo debido a la mezcla ambigua de primer plano y fondo. Los modelos de profundidad existentes predicen principalmente la profundidad de una sola capa, lo que genera ambigüedad en la correspondencia de profundidad en los límites suaves. Si bien las técnicas de matting pueden capturar la opacidad para un modelado en capas, a menudo tienen dificultades en escenas complejas con múltiples objetos y generalmente requieren intervención del usuario. Este artículo presenta αDepth, una representación en capas que descompone los límites suaves para una conversión estéreo de alta fidelidad. Específicamente, primero resolvemos la ambigüedad de color y profundidad mezclados estimando valores de color y profundidad en capas en los límites suaves. Considerando escenas complejas con múltiples objetos, diseñamos una Representación Circular Alfa (CAR) que cambia el paradigma de la extracción global de objetos a la descomposición local de límites. A diferencia de los métodos de matting anteriores restringidos a un único primer plano/fondo, CAR permite una inferencia eficiente a nivel de escena sin guía manual. Evaluaciones exhaustivas demuestran que αDepth logra un rendimiento de última generación en la conversión estéreo, eliminando el sangrado de fondo y las distorsiones estructurales en los límites suaves.

English

Accurately modeling soft boundaries, e.g., hair and defocus blur, is a fundamental challenge in stereo conversion due to the ambiguous blending of foreground and background. Existing depth models primarily predict single-layer depth, leading to ambiguity in depth correspondence at soft boundaries. While matting techniques can capture opacity for layered modeling, they often struggle in complex scenes with multiple targets and usually require user intervention. This paper introduces αDepth, a layered representation that decomposes soft boundaries for high-fidelity stereo conversion. Specifically, we first resolve mixed color and depth ambiguity by estimating layered color and depth values at soft boundaries. Considering complex multi-target scenes, we design a Circular Alpha Representation (CAR) that shifts the paradigm from global target extraction to local boundary decomposition. Unlike prior matting methods restricted to a single foreground/background, CAR enables efficient scene-level inference without manual guidance. Extensive evaluations demonstrate that αDepth achieves state-of-the-art performance in stereo conversion, eliminating background bleeding and structural distortions at soft boundaries.