αDepth: Обучение однопроходному разложению мягких границ для стерео-преобразования

Аннотация

Точное моделирование мягких границ, например, волос и размытия не в фокусе, является фундаментальной задачей в стереоконвертации из-за неоднозначного смешивания переднего и заднего планов. Существующие модели глубины в основном предсказывают глубину одного слоя, что приводит к неоднозначности соответствия глубины на мягких границах. Хотя техники матирования позволяют захватывать непрозрачность для послойного моделирования, они часто сталкиваются с трудностями в сложных сценах с множеством объектов и обычно требуют вмешательства пользователя. В данной статье представлен αDepth — слоевое представление, которое разлагает мягкие границы для высококачественной стереоконвертации. В частности, мы сначала разрешаем неоднозначность смешанных цвета и глубины путем оценки послойных значений цвета и глубины на мягких границах. Учитывая сложные сцены с множеством объектов, мы разрабатываем круговое альфа-представление (Circular Alpha Representation, CAR), которое смещает парадигму от глобального выделения объектов к локальному разложению границ. В отличие от прежних методов матирования, ограниченных одним передним/задним планом, CAR обеспечивает эффективный вывод на уровне сцены без ручного управления. Обширные оценки демонстрируют, что αDepth достигает современного уровня производительности в стереоконвертации, устраняя фоновое просачивание и структурные искажения на мягких границах.

English

Accurately modeling soft boundaries, e.g., hair and defocus blur, is a fundamental challenge in stereo conversion due to the ambiguous blending of foreground and background. Existing depth models primarily predict single-layer depth, leading to ambiguity in depth correspondence at soft boundaries. While matting techniques can capture opacity for layered modeling, they often struggle in complex scenes with multiple targets and usually require user intervention. This paper introduces αDepth, a layered representation that decomposes soft boundaries for high-fidelity stereo conversion. Specifically, we first resolve mixed color and depth ambiguity by estimating layered color and depth values at soft boundaries. Considering complex multi-target scenes, we design a Circular Alpha Representation (CAR) that shifts the paradigm from global target extraction to local boundary decomposition. Unlike prior matting methods restricted to a single foreground/background, CAR enables efficient scene-level inference without manual guidance. Extensive evaluations demonstrate that αDepth achieves state-of-the-art performance in stereo conversion, eliminating background bleeding and structural distortions at soft boundaries.