αDepth: Leren van eenmalige zachte grensdecompositie voor stereoconversie

Samenvatting

Het nauwkeurig modelleren van zachte grenzen, zoals haar en defocusvervaging, vormt een fundamentele uitdaging bij stereoconversie vanwege de ambigue vermenging van voorgrond en achtergrond. Bestaande dieptemodellen voorspellen voornamelijk enkellaagse diepte, wat leidt tot dubbelzinnigheid in dieptecorrespondentie bij zachte grenzen. Hoewel matting-technieken dekking kunnen vastleggen voor gelaagde modellering, worstelen ze vaak met complexe scènes met meerdere objecten en vereisen ze doorgaans gebruikersinterventie. Dit artikel introduceert αDepth, een gelaagde representatie die zachte grenzen decomposeert voor hifi-stereoconversie. Specifiek lossen we eerst de dubbelzinnigheid van gemengde kleur en diepte op door gelaagde kleur- en dieptewaarden bij zachte grenzen te schatten. Rekening houdend met complexe multi-objectscènes ontwerpen we een Circulaire Alfa Representatie (CAR) die het paradigma verschuift van globale objectextractie naar lokale grensdecompositie. In tegenstelling tot eerdere matting-methoden die beperkt zijn tot een enkele voorgrond/achtergrond, maakt CAR efficiënte scèneniveau-inferentie mogelijk zonder handmatige begeleiding. Uitgebreide evaluaties tonen aan dat αDepth state-of-the-art prestaties levert op het gebied van stereoconversie, waarbij achtergronddoorlek en structurele vervormingen bij zachte grenzen worden geëlimineerd.

English

Accurately modeling soft boundaries, e.g., hair and defocus blur, is a fundamental challenge in stereo conversion due to the ambiguous blending of foreground and background. Existing depth models primarily predict single-layer depth, leading to ambiguity in depth correspondence at soft boundaries. While matting techniques can capture opacity for layered modeling, they often struggle in complex scenes with multiple targets and usually require user intervention. This paper introduces αDepth, a layered representation that decomposes soft boundaries for high-fidelity stereo conversion. Specifically, we first resolve mixed color and depth ambiguity by estimating layered color and depth values at soft boundaries. Considering complex multi-target scenes, we design a Circular Alpha Representation (CAR) that shifts the paradigm from global target extraction to local boundary decomposition. Unlike prior matting methods restricted to a single foreground/background, CAR enables efficient scene-level inference without manual guidance. Extensive evaluations demonstrate that αDepth achieves state-of-the-art performance in stereo conversion, eliminating background bleeding and structural distortions at soft boundaries.