αDepth: Lernen einer Ein-Pass-Weichgrenzenzerlegung für die Stereokonvertierung

Zusammenfassung

Die präzise Modellierung weicher Grenzen, z. B. von Haaren und Unschärfe durch Defokussierung, stellt aufgrund der mehrdeutigen Vermischung von Vorder- und Hintergrund eine grundlegende Herausforderung bei der Stereokonvertierung dar. Existierende Tiefenmodelle sagen hauptsächlich die Tiefe einzelner Schichten voraus, was zu Mehrdeutigkeiten in der Tiefenkorrespondenz an weichen Grenzen führt. Während Mattierungstechniken die Opazität für eine geschichtete Modellierung erfassen können, stoßen sie in komplexen Szenen mit mehreren Objekten oft an ihre Grenzen und erfordern in der Regel Benutzereingriffe. Diese Arbeit stellt αDepth vor, eine geschichtete Darstellung, die weiche Grenzen für eine hochwertige Stereokonvertierung zerlegt. Konkret lösen wir zunächst die Mehrdeutigkeit von gemischten Farben und Tiefen, indem wir geschichtete Farb- und Tiefenwerte an weichen Grenzen schätzen. Für komplexe Szenen mit mehreren Objekten entwerfen wir eine Kreisförmige Alpha-Darstellung (CAR), die das Paradigma von der globalen Objektextraktion hin zur lokalen Grenzzersetzung verschiebt. Im Gegensatz zu früheren Mattierungsmethoden, die auf einen einzelnen Vorder-/Hintergrund beschränkt sind, ermöglicht CAR eine effiziente szenenweite Inferenz ohne manuelle Anleitung. Umfangreiche Auswertungen belegen, dass αDepth mit der Stereokonvertierung den aktuellen Stand der Technik erreicht und Hintergrundblutungen sowie strukturelle Verzerrungen an weichen Grenzen beseitigt.

English

Accurately modeling soft boundaries, e.g., hair and defocus blur, is a fundamental challenge in stereo conversion due to the ambiguous blending of foreground and background. Existing depth models primarily predict single-layer depth, leading to ambiguity in depth correspondence at soft boundaries. While matting techniques can capture opacity for layered modeling, they often struggle in complex scenes with multiple targets and usually require user intervention. This paper introduces αDepth, a layered representation that decomposes soft boundaries for high-fidelity stereo conversion. Specifically, we first resolve mixed color and depth ambiguity by estimating layered color and depth values at soft boundaries. Considering complex multi-target scenes, we design a Circular Alpha Representation (CAR) that shifts the paradigm from global target extraction to local boundary decomposition. Unlike prior matting methods restricted to a single foreground/background, CAR enables efficient scene-level inference without manual guidance. Extensive evaluations demonstrate that αDepth achieves state-of-the-art performance in stereo conversion, eliminating background bleeding and structural distortions at soft boundaries.