Van Editor naar Dichte Geometrie Schatter
From Editor to Dense Geometry Estimator
September 4, 2025
Auteurs: JiYuan Wang, Chunyu Lin, Lei Sun, Rongying Liu, Lang Nie, Mingxing Li, Kang Liao, Xiangxiang Chu, Yao Zhao
cs.AI
Samenvatting
Het benutten van visuele voorkennis van vooraf getrainde tekst-naar-beeld (T2I) generatieve modellen heeft succes getoond in dichte voorspelling. Echter, dichte voorspelling is inherent een beeld-naar-beeld taak, wat suggereert dat beeldbewerkingsmodellen, in plaats van T2I generatieve modellen, een geschiktere basis kunnen zijn voor fine-tuning.
Gemotiveerd door dit inzicht, voeren we een systematische analyse uit van het fine-tuning gedrag van zowel bewerkers als generatoren voor dichte geometrie-schatting. Onze bevindingen tonen aan dat bewerkingsmodellen inherente structurele voorkennis bezitten, waardoor ze stabieler kunnen convergeren door hun aangeboren kenmerken te "verfijnen", en uiteindelijk betere prestaties behalen dan hun generatieve tegenhangers.
Op basis van deze bevindingen introduceren we FE2E, een framework dat als eerste een geavanceerd bewerkingsmodel op basis van de Diffusion Transformer (DiT) architectuur aanpast voor dichte geometrie-voorspelling. Specifiek herformuleren we het oorspronkelijke flow matching verlies van de bewerker naar het "consistente snelheid" trainingsdoel om de bewerker aan te passen voor deze deterministische taak. Daarnaast gebruiken we logaritmische kwantisatie om het precisieconflict op te lossen tussen het native BFloat16-formaat van de bewerker en de hoge precisie-eis van onze taken. Bovendien benutten we de globale aandacht van de DiT voor een kosteloze gezamenlijke schatting van diepte en normalen in een enkele forward pass, waardoor hun begeleidende signalen elkaar wederzijds kunnen versterken.
Zonder de trainingsdata op te schalen, behaalt FE2E indrukwekkende prestatieverbeteringen in zero-shot monoscopische diepte- en normaal-schatting over meerdere datasets. Opmerkelijk is dat het meer dan 35\% prestatieverbetering behaalt op de ETH3D dataset en de DepthAnything-serie overtreft, die getraind is op 100 keer zoveel data. De projectpagina is te vinden op https://amap-ml.github.io/FE2E/{hier}.
English
Leveraging visual priors from pre-trained text-to-image (T2I) generative
models has shown success in dense prediction. However, dense prediction is
inherently an image-to-image task, suggesting that image editing models, rather
than T2I generative models, may be a more suitable foundation for fine-tuning.
Motivated by this, we conduct a systematic analysis of the fine-tuning
behaviors of both editors and generators for dense geometry estimation. Our
findings show that editing models possess inherent structural priors, which
enable them to converge more stably by ``refining" their innate features, and
ultimately achieve higher performance than their generative counterparts.
Based on these findings, we introduce FE2E, a framework that
pioneeringly adapts an advanced editing model based on Diffusion Transformer
(DiT) architecture for dense geometry prediction. Specifically, to tailor the
editor for this deterministic task, we reformulate the editor's original flow
matching loss into the ``consistent velocity" training objective. And we use
logarithmic quantization to resolve the precision conflict between the editor's
native BFloat16 format and the high precision demand of our tasks.
Additionally, we leverage the DiT's global attention for a cost-free joint
estimation of depth and normals in a single forward pass, enabling their
supervisory signals to mutually enhance each other.
Without scaling up the training data, FE2E achieves impressive performance
improvements in zero-shot monocular depth and normal estimation across multiple
datasets. Notably, it achieves over 35\% performance gains on the ETH3D dataset
and outperforms the DepthAnything series, which is trained on 100times data.
The project page can be accessed https://amap-ml.github.io/FE2E/{here}.