Guardians of the Hair: Rescuing Soft Boundaries in Depth, Stereo, and Novel Views

Resumo

Fronteiras suaves, como fios de cabelo finos, são comumente observadas em imagens naturais e geradas por computador, mas permanecem um desafio para a visão 3D devido à mistura ambígua de pistas de primeiro plano e fundo. Este artigo apresenta os Guardiões do Cabelo (HairGuard), uma estrutura projetada para recuperar detalhes refinados de fronteiras suaves em tarefas de visão 3D. Especificamente, propomos primeiro um *pipeline* inovador de curadoria de dados que aproveita conjuntos de dados de *matting* de imagens para treinamento e projetamos uma rede de correção de profundidade para identificar automaticamente regiões de fronteira suave. Com um módulo residual com portão, o corretor de profundidade refina a profundidade precisamente ao redor das fronteiras suaves, mantendo a qualidade global da profundidade, permitindo integração *plug-and-play* com modelos de profundidade de última geração. Para síntese de vistas, realizamos uma deformação direta baseada em profundidade para reter texturas de alta fidelidade, seguida por um pintor generativo de cenas que preenche regiões desocludidas e elimina artefatos redundantes de fundo dentro das fronteiras suaves. Finalmente, um fusionador de cores combina adaptativamente os resultados deformados e reconstituídos para produzir novas vistas com geometria consistente e detalhes refinados. Experimentos extensivos demonstram que o HairGuard alcança desempenho de última geração em estimativa de profundidade monocular, conversão de imagem/vídeo estéreo e síntese de novas vistas, com melhorias significativas nas regiões de fronteira suave.

English

Soft boundaries, like thin hairs, are commonly observed in natural and computer-generated imagery, but they remain challenging for 3D vision due to the ambiguous mixing of foreground and background cues. This paper introduces Guardians of the Hair (HairGuard), a framework designed to recover fine-grained soft boundary details in 3D vision tasks. Specifically, we first propose a novel data curation pipeline that leverages image matting datasets for training and design a depth fixer network to automatically identify soft boundary regions. With a gated residual module, the depth fixer refines depth precisely around soft boundaries while maintaining global depth quality, allowing plug-and-play integration with state-of-the-art depth models. For view synthesis, we perform depth-based forward warping to retain high-fidelity textures, followed by a generative scene painter that fills disoccluded regions and eliminates redundant background artifacts within soft boundaries. Finally, a color fuser adaptively combines warped and inpainted results to produce novel views with consistent geometry and fine-grained details. Extensive experiments demonstrate that HairGuard achieves state-of-the-art performance across monocular depth estimation, stereo image/video conversion, and novel view synthesis, with significant improvements in soft boundary regions.