ChatPaper.aiChatPaper

StereoSpace: 正準空間におけるエンドツーエンド拡散による深度フリーのステレオ形状合成

StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space

December 11, 2025
著者: Tjark Behrens, Anton Obukhov, Bingxin Ke, Fabio Tosi, Matteo Poggi, Konrad Schindler
cs.AI

要旨

本論文では、単眼画像からのステレオ合成のための拡散ベースフレームワーク「StereoSpace」を提案する。本手法は、明示的な深度推定やワーピングを用いず、視点条件付けのみによって幾何学をモデル化する。正規化された平行化空間と条件付けにより、生成器は対応点の推定とディオクルージョン領域の補完をエンドツーエンドで学習する。公平かつ情報漏洩のない評価を確保するため、推論時にグランドトゥルースや代理ジオメトリ推定を一切用いないエンドツーエンド評価プロトコルを構築した。このプロトコルでは、実用性を反映する指標として、知覚的快適性を測るiSQoEと幾何学的一貫性を測るMEt3Rを重視する。StereoSpaceは、ワープ&インペイント、潜在空間ワーピング、ワープ条件付けといった従来手法を凌駕し、レイヤードシーンや非ランバート面においても鋭い視差と高いロバスト性を実現した。これにより、視点条件付け拡散モデルが、深度情報に依存しないスケーラブルなステレオ生成手法として有効であることを立証する。
English
We introduce StereoSpace, a diffusion-based framework for monocular-to-stereo synthesis that models geometry purely through viewpoint conditioning, without explicit depth or warping. A canonical rectified space and the conditioning guide the generator to infer correspondences and fill disocclusions end-to-end. To ensure fair and leakage-free evaluation, we introduce an end-to-end protocol that excludes any ground truth or proxy geometry estimates at test time. The protocol emphasizes metrics reflecting downstream relevance: iSQoE for perceptual comfort and MEt3R for geometric consistency. StereoSpace surpasses other methods from the warp & inpaint, latent-warping, and warped-conditioning categories, achieving sharp parallax and strong robustness on layered and non-Lambertian scenes. This establishes viewpoint-conditioned diffusion as a scalable, depth-free solution for stereo generation.
PDF71December 13, 2025