ChatPaper.aiChatPaper

Lotus-2: 強力な画像生成モデルによる幾何学的稠密予測の進展

Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model

November 30, 2025
著者: Jing He, Haodong Li, Mingzhi Sheng, Ying-Cong Chen
cs.AI

要旨

単一画像からの画素単位の幾何特性の復元は、見た目の曖昧性と、2D観測と3D構造との間の非単射的な写像により、原理的に不良設定問題である。識別的な回帰モデルは大規模な教師あり学習により高い性能を達成するが、その成功は利用可能なデータの規模・品質・多様性、および限られた物理的推論に制約される。近年の拡散モデルは、大規模な画像-テキストデータから学習された幾何情報と意味情報を符号化する強力な世界事前分布を示すが、その確率的な生成定式化を決定論的な幾何推論に直接再利用することは最適ではない。前者は多様で高精細な画像生成に向けて最適化されているのに対し、後者は安定かつ正確な予測を必要とするためである。本研究では、事前学習された生成的事前分布を最大限に活用する最適な適応プロトコルを提供するため、安定・正確・細粒度な幾何的密な予測のための2段階決定論的フレームワークであるLotus-2を提案する。具体的には、第1段階では、コア予測器が、クリーンデータ目的関数と軽量な局所連続性モジュール(LCM)を用いた単一段階の決定論的定式化を採用し、グリッドアーティファクトのない大域的に一貫した構造を生成する。第2段階では、詳細シャープナーが、コア予測器によって定義された多様体内で制約付き多段階整流フロー精緻化を実行し、ノイズのない決定論的フローマッチングを通じて微細な幾何形状を強化する。既存の大規模データセットの1%未満である59Kの訓練サンプルのみを使用して、Lotus-2は単眼深度推定において新たなstate-of-the-artを達成し、表面法線予測においても高い競争力を示す。これらの結果は、拡散モデルが決定論的世界事前分布として機能し、従来の識別的・生成的パラダイムを超えた高品質な幾何推論を可能にすることを実証している。
English
Recovering pixel-wise geometric properties from a single image is fundamentally ill-posed due to appearance ambiguity and non-injective mappings between 2D observations and 3D structures. While discriminative regression models achieve strong performance through large-scale supervision, their success is bounded by the scale, quality and diversity of available data and limited physical reasoning. Recent diffusion models exhibit powerful world priors that encode geometry and semantics learned from massive image-text data, yet directly reusing their stochastic generative formulation is suboptimal for deterministic geometric inference: the former is optimized for diverse and high-fidelity image generation, whereas the latter requires stable and accurate predictions. In this work, we propose Lotus-2, a two-stage deterministic framework for stable, accurate and fine-grained geometric dense prediction, aiming to provide an optimal adaption protocol to fully exploit the pre-trained generative priors. Specifically, in the first stage, the core predictor employs a single-step deterministic formulation with a clean-data objective and a lightweight local continuity module (LCM) to generate globally coherent structures without grid artifacts. In the second stage, the detail sharpener performs a constrained multi-step rectified-flow refinement within the manifold defined by the core predictor, enhancing fine-grained geometry through noise-free deterministic flow matching. Using only 59K training samples, less than 1% of existing large-scale datasets, Lotus-2 establishes new state-of-the-art results in monocular depth estimation and highly competitive surface normal prediction. These results demonstrate that diffusion models can serve as deterministic world priors, enabling high-quality geometric reasoning beyond traditional discriminative and generative paradigms.
PDF51December 3, 2025