ChatPaper.aiChatPaper

Lotus-2: Weiterentwicklung geometrischer Dichtevorhersage durch leistungsstarke Bildgenerierungsmodelle

Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model

November 30, 2025
papers.authors: Jing He, Haodong Li, Mingzhi Sheng, Ying-Cong Chen
cs.AI

papers.abstract

Die Wiederherstellung pixelweiser geometrischer Eigenschaften aus einem einzelnen Bild ist aufgrund von Erscheinungsambiguität und nicht-injektiven Abbildungen zwischen 2D-Beobachtungen und 3D-Strukturen grundsätzlich ill-posed. Während diskriminative Regressionsmodelle durch groß angelegte Supervision hohe Leistung erzielen, ist ihr Erfolg durch Umfang, Qualität und Diversität der verfügbaren Daten sowie begrenzte physikalische Schlussfolgerungen beschränkt. Aktuelle Diffusionsmodelle weisen mächtige Welt-Priors auf, die aus umfangreichen Bild-Text-Daten gelernte Geometrie und Semantik kodieren, doch die direkte Wiederverwendung ihrer stochastischen generativen Formulierung ist für deterministische geometrische Inferenz suboptimal: Erstere ist auf diverse und hochwertige Bildgenerierung optimiert, während Letztere stabile und präzise Vorhersagen erfordert. In dieser Arbeit stellen wir Lotus-2 vor, ein zweistufiges deterministisches Framework für stabile, präzise und feingranulare geometrische Dichtevorhersage, das einen optimalen Adaptionsprotokoll bereitstellt, um die vortrainierten generativen Priors vollständig auszuschöpfen. Konkret employiert der Kern-Prädiktor in der ersten Stufe eine einzelschrittige deterministische Formulierung mit einem Clean-Data-Objective und einem leichten Local Continuity Module (LCM), um global kohärente Strukturen ohne Gitterartefakte zu generieren. In der zweiten Stufe führt der Detail-Schärfer eine eingeschränkte mehrschrittige Rectified-Flow-Verfeinerung innerhalb der durch den Kern-Prädiktor definierten Mannigfaltigkeit durch, die feingranulare Geometrie durch rauschfreies deterministisches Flow-Matching verbessert. Mit nur 59.000 Trainingssamples – weniger als 1% existierender großskaliger Datensätze – erzielt Lotus-2 neue State-of-the-Art-Ergebnisse in monokularer Tiefenschätzung und hoch kompetitiver Oberflächennormalen-Vorhersage. Diese Ergebnisse demonstrieren, dass Diffusionsmodelle als deterministische Welt-Priors dienen können, die hochwertige geometrische Schlussfolgerungen jenseits traditioneller diskriminativer und generativer Paradigmen ermöglichen.
English
Recovering pixel-wise geometric properties from a single image is fundamentally ill-posed due to appearance ambiguity and non-injective mappings between 2D observations and 3D structures. While discriminative regression models achieve strong performance through large-scale supervision, their success is bounded by the scale, quality and diversity of available data and limited physical reasoning. Recent diffusion models exhibit powerful world priors that encode geometry and semantics learned from massive image-text data, yet directly reusing their stochastic generative formulation is suboptimal for deterministic geometric inference: the former is optimized for diverse and high-fidelity image generation, whereas the latter requires stable and accurate predictions. In this work, we propose Lotus-2, a two-stage deterministic framework for stable, accurate and fine-grained geometric dense prediction, aiming to provide an optimal adaption protocol to fully exploit the pre-trained generative priors. Specifically, in the first stage, the core predictor employs a single-step deterministic formulation with a clean-data objective and a lightweight local continuity module (LCM) to generate globally coherent structures without grid artifacts. In the second stage, the detail sharpener performs a constrained multi-step rectified-flow refinement within the manifold defined by the core predictor, enhancing fine-grained geometry through noise-free deterministic flow matching. Using only 59K training samples, less than 1% of existing large-scale datasets, Lotus-2 establishes new state-of-the-art results in monocular depth estimation and highly competitive surface normal prediction. These results demonstrate that diffusion models can serve as deterministic world priors, enabling high-quality geometric reasoning beyond traditional discriminative and generative paradigms.
PDF51December 3, 2025