Vom Editor zum Schätzer dichter Geometrie
From Editor to Dense Geometry Estimator
September 4, 2025
papers.authors: JiYuan Wang, Chunyu Lin, Lei Sun, Rongying Liu, Lang Nie, Mingxing Li, Kang Liao, Xiangxiang Chu, Yao Zhao
cs.AI
papers.abstract
Die Nutzung visueller Priors aus vortrainierten Text-zu-Bild (T2I) generativen Modellen hat sich bei der dichten Vorhersage als erfolgreich erwiesen. Allerdings ist die dichte Vorhersage von Natur aus eine Bild-zu-Bild-Aufgabe, was darauf hindeutet, dass Bildbearbeitungsmodelle anstelle von T2I generativen Modellen eine geeignetere Grundlage für das Feinabstimmen sein könnten.
Motiviert durch diese Überlegung führen wir eine systematische Analyse des Feinabstimmungsverhaltens sowohl von Bearbeitungs- als auch von Generierungsmodellen für die dichte Geometrieschätzung durch. Unsere Ergebnisse zeigen, dass Bearbeitungsmodelle inhärente strukturelle Priors besitzen, die es ihnen ermöglichen, stabiler zu konvergieren, indem sie ihre angeborenen Merkmale „verfeinern“, und letztendlich eine höhere Leistung als ihre generativen Gegenstücke zu erzielen.
Basierend auf diesen Erkenntnissen stellen wir FE2E vor, ein Framework, das erstmals ein fortschrittliches Bearbeitungsmodell auf Basis der Diffusion Transformer (DiT)-Architektur für die dichte Geometrievorhersage adaptiert. Konkret reformulieren wir den ursprünglichen Flow-Matching-Verlust des Bearbeitungsmodells in das „konsistente Geschwindigkeit“-Trainingsziel, um den Editor für diese deterministische Aufgabe anzupassen. Zudem verwenden wir logarithmische Quantisierung, um den Präzisionskonflikt zwischen dem nativen BFloat16-Format des Editors und den hohen Präzisionsanforderungen unserer Aufgaben zu lösen. Darüber hinaus nutzen wir die globale Aufmerksamkeit des DiT für eine kostenneutrale gemeinsame Schätzung von Tiefe und Normalen in einem einzigen Vorwärtsdurchlauf, wodurch ihre Überwachungssignale sich gegenseitig verstärken können.
Ohne die Trainingsdaten zu skalieren, erzielt FE2E beeindruckende Leistungssteigerungen bei der Null-Shot-Monokular-Tiefen- und Normalenschätzung über mehrere Datensätze hinweg. Insbesondere erreicht es über 35\% Leistungssteigerung auf dem ETH3D-Datensatz und übertrifft die DepthAnything-Serie, die mit 100-fachen Daten trainiert wurde. Die Projektseite kann unter https://amap-ml.github.io/FE2E/{hier} aufgerufen werden.
English
Leveraging visual priors from pre-trained text-to-image (T2I) generative
models has shown success in dense prediction. However, dense prediction is
inherently an image-to-image task, suggesting that image editing models, rather
than T2I generative models, may be a more suitable foundation for fine-tuning.
Motivated by this, we conduct a systematic analysis of the fine-tuning
behaviors of both editors and generators for dense geometry estimation. Our
findings show that editing models possess inherent structural priors, which
enable them to converge more stably by ``refining" their innate features, and
ultimately achieve higher performance than their generative counterparts.
Based on these findings, we introduce FE2E, a framework that
pioneeringly adapts an advanced editing model based on Diffusion Transformer
(DiT) architecture for dense geometry prediction. Specifically, to tailor the
editor for this deterministic task, we reformulate the editor's original flow
matching loss into the ``consistent velocity" training objective. And we use
logarithmic quantization to resolve the precision conflict between the editor's
native BFloat16 format and the high precision demand of our tasks.
Additionally, we leverage the DiT's global attention for a cost-free joint
estimation of depth and normals in a single forward pass, enabling their
supervisory signals to mutually enhance each other.
Without scaling up the training data, FE2E achieves impressive performance
improvements in zero-shot monocular depth and normal estimation across multiple
datasets. Notably, it achieves over 35\% performance gains on the ETH3D dataset
and outperforms the DepthAnything series, which is trained on 100times data.
The project page can be accessed https://amap-ml.github.io/FE2E/{here}.