ChatPaper.aiChatPaper

로터스-2: 강력한 이미지 생성 모델을 통한 기하학적 밀집 예측 기술 발전

Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model

November 30, 2025
저자: Jing He, Haodong Li, Mingzhi Sheng, Ying-Cong Chen
cs.AI

초록

단일 이미지에서 픽셀 단위 기하학적 특성을 복원하는 문제는 외관 모호성과 2D 관측과 3D 구조 간의 비단사적 매핑으로 인해 본질적으로 ill-posed 문제입니다. 판별적 회귀 모델은 대규모 지도 학습을 통해 강력한 성능을 달성하지만, 그 성공은 사용 가능한 데이터의 규모, 품질, 다양성에 의해 제한되며 물리적 추론 능력이 부족합니다. 최근 확산 모델은 방대한 이미지-텍스트 데이터로부터 학습된 기하학 및 의미론을 인코딩하는 강력한 세계 사전 지식을 보여주지만, 확률적 생성 방식을 결정론적 기하학 추론에 직접 재사용하는 것은 최적이 아닙니다. 전자는 다양하고 높은 충실도의 이미지 생성을 위해 최적화되었으나, 후자는 안정적이고 정확한 예측을 요구하기 때문입니다. 본 연구에서는 사전 학습된 생성적 사전 지식을 최대한 활용하기 위한 최적의 적응 프로토콜을 제공하고자, 안정적이고 정확하며 세밀한 기하학적 밀집 예측을 위한 2단계 결정론적 프레임워크인 Lotus-2를 제안합니다. 구체적으로, 첫 번째 단계에서 핵심 예측기는 깨끗한 데이터 목표 함수와 경량화된 지역 연속성 모듈(LCM)을 사용한 단일 단계 결정론적 공식을 통해 그리드 아티팩트 없이 전역적으로 일관된 구조를 생성합니다. 두 번째 단계에서는 디테일 샤프너가 핵심 예측기에 의해 정의된 매니폴드 내에서 제약된 다단계 정류 흐름 정제를 수행하여 무잡음 결정론적 흐름 매칭을 통해 세밀한 기하학을 향상시킵니다. 기존 대규모 데이터셋의 1% 미만인 59K 개의 학습 샘플만을 사용하여 Lotus-2는 단안 깊이 추정에서 새로운 최첨단 결과를 달성하고 표면 법선 예측에서 매우 경쟁력 있는 성능을 보입니다. 이러한 결과는 확산 모델이 결정론적 세계 사전 지식으로 작용하여 기존의 판별적 및 생성적 패러다임을 넘어선 고품질 기하학적 추론을 가능하게 함을 입증합니다.
English
Recovering pixel-wise geometric properties from a single image is fundamentally ill-posed due to appearance ambiguity and non-injective mappings between 2D observations and 3D structures. While discriminative regression models achieve strong performance through large-scale supervision, their success is bounded by the scale, quality and diversity of available data and limited physical reasoning. Recent diffusion models exhibit powerful world priors that encode geometry and semantics learned from massive image-text data, yet directly reusing their stochastic generative formulation is suboptimal for deterministic geometric inference: the former is optimized for diverse and high-fidelity image generation, whereas the latter requires stable and accurate predictions. In this work, we propose Lotus-2, a two-stage deterministic framework for stable, accurate and fine-grained geometric dense prediction, aiming to provide an optimal adaption protocol to fully exploit the pre-trained generative priors. Specifically, in the first stage, the core predictor employs a single-step deterministic formulation with a clean-data objective and a lightweight local continuity module (LCM) to generate globally coherent structures without grid artifacts. In the second stage, the detail sharpener performs a constrained multi-step rectified-flow refinement within the manifold defined by the core predictor, enhancing fine-grained geometry through noise-free deterministic flow matching. Using only 59K training samples, less than 1% of existing large-scale datasets, Lotus-2 establishes new state-of-the-art results in monocular depth estimation and highly competitive surface normal prediction. These results demonstrate that diffusion models can serve as deterministic world priors, enabling high-quality geometric reasoning beyond traditional discriminative and generative paradigms.
PDF51December 3, 2025