От редактора к оценщику плотной геометрии
From Editor to Dense Geometry Estimator
September 4, 2025
Авторы: JiYuan Wang, Chunyu Lin, Lei Sun, Rongying Liu, Lang Nie, Mingxing Li, Kang Liao, Xiangxiang Chu, Yao Zhao
cs.AI
Аннотация
Использование визуальных априорных знаний из предобученных моделей генерации текста в изображение (T2I) показало успехи в задачах плотного предсказания. Однако плотное предсказание по своей природе является задачей преобразования изображения в изображение, что предполагает, что модели редактирования изображений, а не генеративные модели T2I, могут быть более подходящей основой для тонкой настройки.
Руководствуясь этим, мы провели систематический анализ поведения как редакторов, так и генераторов при тонкой настройке для задач оценки плотной геометрии. Наши результаты показывают, что модели редактирования обладают внутренними структурными априорными знаниями, которые позволяют им сходиться более стабильно за счет «уточнения» своих врожденных признаков и в конечном итоге достигать более высокой производительности по сравнению с генеративными аналогами.
На основе этих выводов мы представляем FE2E — фреймворк, который впервые адаптирует продвинутую модель редактирования, основанную на архитектуре Diffusion Transformer (DiT), для задач плотного предсказания геометрии. В частности, чтобы адаптировать редактор для этой детерминированной задачи, мы переформулируем исходную функцию потерь на основе сопоставления потоков в цель обучения «согласованной скорости». Кроме того, мы используем логарифмическую квантизацию для разрешения конфликта точности между родным форматом BFloat16 редактора и высокими требованиями к точности наших задач. Дополнительно мы используем глобальное внимание DiT для совместной оценки глубины и нормалей за один прямой проход, что позволяет их обучающим сигналам взаимно усиливать друг друга.
Без увеличения объема обучающих данных FE2E демонстрирует впечатляющие улучшения производительности в задачах нулевого снимка (zero-shot) оценки монохромной глубины и нормалей на нескольких наборах данных. В частности, он достигает более чем 35\% прироста производительности на наборе данных ETH3D и превосходит серию DepthAnything, обученную на 100 раз большем объеме данных. Страницу проекта можно найти {здесь}.
English
Leveraging visual priors from pre-trained text-to-image (T2I) generative
models has shown success in dense prediction. However, dense prediction is
inherently an image-to-image task, suggesting that image editing models, rather
than T2I generative models, may be a more suitable foundation for fine-tuning.
Motivated by this, we conduct a systematic analysis of the fine-tuning
behaviors of both editors and generators for dense geometry estimation. Our
findings show that editing models possess inherent structural priors, which
enable them to converge more stably by ``refining" their innate features, and
ultimately achieve higher performance than their generative counterparts.
Based on these findings, we introduce FE2E, a framework that
pioneeringly adapts an advanced editing model based on Diffusion Transformer
(DiT) architecture for dense geometry prediction. Specifically, to tailor the
editor for this deterministic task, we reformulate the editor's original flow
matching loss into the ``consistent velocity" training objective. And we use
logarithmic quantization to resolve the precision conflict between the editor's
native BFloat16 format and the high precision demand of our tasks.
Additionally, we leverage the DiT's global attention for a cost-free joint
estimation of depth and normals in a single forward pass, enabling their
supervisory signals to mutually enhance each other.
Without scaling up the training data, FE2E achieves impressive performance
improvements in zero-shot monocular depth and normal estimation across multiple
datasets. Notably, it achieves over 35\% performance gains on the ETH3D dataset
and outperforms the DepthAnything series, which is trained on 100times data.
The project page can be accessed https://amap-ml.github.io/FE2E/{here}.