Custodi dei Capelli: Salvare i Confini Sottili nella Profondità, nello Stereo e nelle Nuove Visualizzazioni

Abstract

I bordi morbidi, come capelli sottili, sono comunemente osservati nelle immagini naturali e generate al computer, ma rimangono una sfida per la visione 3D a causa della miscela ambigua di indizi in primo piano e sullo sfondo. Questo articolo presenta Guardians of the Hair (HairGuard), un framework progettato per recuperare i dettagli granulari dei bordi morbidi nelle attività di visione 3D. Nello specifico, proponiamo prima una nuova pipeline di preparazione dei dati che sfrutta dataset di image matting per l'addestramento e progettiamo una rete "depth fixer" per identificare automaticamente le regioni di bordo morbido. Con un modulo residuo a gate, il "depth fixer" perfeziona la profondità proprio attorno ai bordi morbidi mantenendo la qualità della profondità globale, consentendo un'integrazione plug-and-play con modelli di profondità all'avanguardia. Per la sintesi di nuove viste, eseguiamo un forward warping basato sulla profondità per conservare texture ad alta fedeltà, seguito da un "generative scene painter" che riempie le regioni disoccluse ed elimina gli artefatti di sfondo ridondanti all'interno dei bordi morbidi. Infine, un "color fuser" combina in modo adattivo i risultati deformati e inpainted per produrre nuove viste con geometria coerente e dettagli granulari. Esperimenti estensivi dimostrano che HairGuard raggiunge prestazioni all'avanguardia nella stima della profondità monoculare, nella conversione di immagini/video stereo e nella sintesi di nuove viste, con miglioramenti significativi nelle regioni di bordo morbido.

English

Soft boundaries, like thin hairs, are commonly observed in natural and computer-generated imagery, but they remain challenging for 3D vision due to the ambiguous mixing of foreground and background cues. This paper introduces Guardians of the Hair (HairGuard), a framework designed to recover fine-grained soft boundary details in 3D vision tasks. Specifically, we first propose a novel data curation pipeline that leverages image matting datasets for training and design a depth fixer network to automatically identify soft boundary regions. With a gated residual module, the depth fixer refines depth precisely around soft boundaries while maintaining global depth quality, allowing plug-and-play integration with state-of-the-art depth models. For view synthesis, we perform depth-based forward warping to retain high-fidelity textures, followed by a generative scene painter that fills disoccluded regions and eliminates redundant background artifacts within soft boundaries. Finally, a color fuser adaptively combines warped and inpainted results to produce novel views with consistent geometry and fine-grained details. Extensive experiments demonstrate that HairGuard achieves state-of-the-art performance across monocular depth estimation, stereo image/video conversion, and novel view synthesis, with significant improvements in soft boundary regions.

Custodi dei Capelli: Salvare i Confini Sottili nella Profondità, nello Stereo e nelle Nuove Visualizzazioni

Guardians of the Hair: Rescuing Soft Boundaries in Depth, Stereo, and Novel Views

Abstract

Support