ChatPaper.aiChatPaper

Lotus-2: Прогресс в геометрическом плотном прогнозировании с помощью мощной модели генерации изображений

Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model

November 30, 2025
Авторы: Jing He, Haodong Li, Mingzhi Sheng, Ying-Cong Chen
cs.AI

Аннотация

Восстановление пиксельных геометрических свойств из одного изображения является принципиально некорректной задачей из-за неоднозначности внешнего вида и неинъективных соответствий между 2D-наблюдениями и 3D-структурами. Хотя дискриминативные регрессионные модели демонстрируют высокую производительность благодаря обучению на больших данных, их успех ограничен масштабом, качеством и разнообразием доступных данных, а также ограниченными физическими представлениями. Современные диффузионные модели обладают мощными априорными знаниями о мире, кодирующими геометрию и семантику, усвоенные из огромных наборов изображений и текстов, однако прямое повторное использование их стохастической генеративной формулировки субоптимально для детерминированного геометрического вывода: первая оптимизирована для разнообразной и высококачественной генерации изображений, тогда как вторая требует стабильных и точных предсказаний. В данной работе мы предлагаем Lotus-2, двухэтапную детерминированную систему для стабильного, точного и детализированного геометрического плотного предсказания, направленную на создание оптимального протокола адаптации для полного использования предобученных генеративных априорных знаний. В частности, на первом этапе основной предсказатель использует одношаговую детерминированную формулировку с целевой функцией для чистых данных и легковесный модуль локальной непрерывности (LCM) для генерации глобально согласованных структур без артефактов сетки. На втором этапе модуль повышения резкости деталей выполняет ограниченную многошаговую коррекцию с помощью исправленного потока в многообразии, определенном основным предсказателем, улучшая мелкозернистую геометрию посредством бесшумного детерминированного согласования потоков. Используя всего 59 тыс. обучающих примеров (менее 1% существующих крупномасштабных наборов данных), Lotus-2 устанавливает новые рекорды в области монокулярного оценивания глубины и демонстрирует высококонкурентные результаты в предсказании нормалей поверхностей. Эти результаты показывают, что диффузионные модели могут служить детерминированными априорными знаниями о мире, обеспечивая высококачественное геометрическое рассуждение, выходящее за рамки традиционных дискриминативных и генеративных парадигм.
English
Recovering pixel-wise geometric properties from a single image is fundamentally ill-posed due to appearance ambiguity and non-injective mappings between 2D observations and 3D structures. While discriminative regression models achieve strong performance through large-scale supervision, their success is bounded by the scale, quality and diversity of available data and limited physical reasoning. Recent diffusion models exhibit powerful world priors that encode geometry and semantics learned from massive image-text data, yet directly reusing their stochastic generative formulation is suboptimal for deterministic geometric inference: the former is optimized for diverse and high-fidelity image generation, whereas the latter requires stable and accurate predictions. In this work, we propose Lotus-2, a two-stage deterministic framework for stable, accurate and fine-grained geometric dense prediction, aiming to provide an optimal adaption protocol to fully exploit the pre-trained generative priors. Specifically, in the first stage, the core predictor employs a single-step deterministic formulation with a clean-data objective and a lightweight local continuity module (LCM) to generate globally coherent structures without grid artifacts. In the second stage, the detail sharpener performs a constrained multi-step rectified-flow refinement within the manifold defined by the core predictor, enhancing fine-grained geometry through noise-free deterministic flow matching. Using only 59K training samples, less than 1% of existing large-scale datasets, Lotus-2 establishes new state-of-the-art results in monocular depth estimation and highly competitive surface normal prediction. These results demonstrate that diffusion models can serve as deterministic world priors, enabling high-quality geometric reasoning beyond traditional discriminative and generative paradigms.
PDF51December 3, 2025