髪の守護者:深度、ステレオ、新規視点におけるソフト境界の修復
Guardians of the Hair: Rescuing Soft Boundaries in Depth, Stereo, and Novel Views
January 6, 2026
著者: Xiang Zhang, Yang Zhang, Lukas Mehl, Markus Gross, Christopher Schroers
cs.AI
要旨
ソフト境界は、細い髪の毛のように、自然画像やコンピュータ生成画像で一般的に観察されるが、前景と背景の手がかりが曖昧に混在するため、3Dビジョンにおいては依然として課題となっている。本論文では、3Dビジョンタスクにおいて微細なソフト境界の詳細を復元するためのフレームワーク「Guardians of the Hair (HairGuard)」を提案する。具体的には、まず、画像マッティングデータセットを学習に活用する新規のデータキュレーションパイプラインを提案し、ソフト境界領域を自動的に識別する深度修正ネットワークを設計する。ゲート付き残差モジュールにより、深度修正ネットワークは大域的な深度品質を維持しつつ、ソフト境界周辺の深度を精密に補正し、最先端の深度モデルとのプラグアンドプレイ統合を可能にする。ビュー合成においては、高精細なテクスチャを保持するために深度ベースのフォワードワーピングを実行し、続いて生成的なシーンペインターがディオクルージョン領域を補填し、ソフト境界内の冗長な背景アーティファクトを除去する。最後に、カラーフュージョンが適応的にワープ結果とインペイント結果を統合し、一貫したジオメトリと微細なディテールを備えた新規ビューを生成する。大規模な実験により、HairGuardが、単眼深度推定、ステレオ画像/動画変換、新規ビュー合成において、ソフト境界領域で顕著な改善を示し、最先端の性能を達成することを実証する。
English
Soft boundaries, like thin hairs, are commonly observed in natural and computer-generated imagery, but they remain challenging for 3D vision due to the ambiguous mixing of foreground and background cues. This paper introduces Guardians of the Hair (HairGuard), a framework designed to recover fine-grained soft boundary details in 3D vision tasks. Specifically, we first propose a novel data curation pipeline that leverages image matting datasets for training and design a depth fixer network to automatically identify soft boundary regions. With a gated residual module, the depth fixer refines depth precisely around soft boundaries while maintaining global depth quality, allowing plug-and-play integration with state-of-the-art depth models. For view synthesis, we perform depth-based forward warping to retain high-fidelity textures, followed by a generative scene painter that fills disoccluded regions and eliminates redundant background artifacts within soft boundaries. Finally, a color fuser adaptively combines warped and inpainted results to produce novel views with consistent geometry and fine-grained details. Extensive experiments demonstrate that HairGuard achieves state-of-the-art performance across monocular depth estimation, stereo image/video conversion, and novel view synthesis, with significant improvements in soft boundary regions.