Vom Editor zum Schätzer dichter Geometrie

papers.abstract

Die Nutzung visueller Priors aus vortrainierten Text-zu-Bild (T2I) generativen Modellen hat sich bei der dichten Vorhersage als erfolgreich erwiesen. Allerdings ist die dichte Vorhersage von Natur aus eine Bild-zu-Bild-Aufgabe, was darauf hindeutet, dass Bildbearbeitungsmodelle anstelle von T2I generativen Modellen eine geeignetere Grundlage für das Feinabstimmen sein könnten. Motiviert durch diese Überlegung führen wir eine systematische Analyse des Feinabstimmungsverhaltens sowohl von Bearbeitungs- als auch von Generierungsmodellen für die dichte Geometrieschätzung durch. Unsere Ergebnisse zeigen, dass Bearbeitungsmodelle inhärente strukturelle Priors besitzen, die es ihnen ermöglichen, stabiler zu konvergieren, indem sie ihre angeborenen Merkmale „verfeinern“, und letztendlich eine höhere Leistung als ihre generativen Gegenstücke zu erzielen. Basierend auf diesen Erkenntnissen stellen wir FE2E vor, ein Framework, das erstmals ein fortschrittliches Bearbeitungsmodell auf Basis der Diffusion Transformer (DiT)-Architektur für die dichte Geometrievorhersage adaptiert. Konkret reformulieren wir den ursprünglichen Flow-Matching-Verlust des Bearbeitungsmodells in das „konsistente Geschwindigkeit“-Trainingsziel, um den Editor für diese deterministische Aufgabe anzupassen. Zudem verwenden wir logarithmische Quantisierung, um den Präzisionskonflikt zwischen dem nativen BFloat16-Format des Editors und den hohen Präzisionsanforderungen unserer Aufgaben zu lösen. Darüber hinaus nutzen wir die globale Aufmerksamkeit des DiT für eine kostenneutrale gemeinsame Schätzung von Tiefe und Normalen in einem einzigen Vorwärtsdurchlauf, wodurch ihre Überwachungssignale sich gegenseitig verstärken können. Ohne die Trainingsdaten zu skalieren, erzielt FE2E beeindruckende Leistungssteigerungen bei der Null-Shot-Monokular-Tiefen- und Normalenschätzung über mehrere Datensätze hinweg. Insbesondere erreicht es über 35\% Leistungssteigerung auf dem ETH3D-Datensatz und übertrifft die DepthAnything-Serie, die mit 100-fachen Daten trainiert wurde. Die Projektseite kann unter https://amap-ml.github.io/FE2E/{hier} aufgerufen werden.

English

Leveraging visual priors from pre-trained text-to-image (T2I) generative models has shown success in dense prediction. However, dense prediction is inherently an image-to-image task, suggesting that image editing models, rather than T2I generative models, may be a more suitable foundation for fine-tuning. Motivated by this, we conduct a systematic analysis of the fine-tuning behaviors of both editors and generators for dense geometry estimation. Our findings show that editing models possess inherent structural priors, which enable them to converge more stably by ``refining" their innate features, and ultimately achieve higher performance than their generative counterparts. Based on these findings, we introduce FE2E, a framework that pioneeringly adapts an advanced editing model based on Diffusion Transformer (DiT) architecture for dense geometry prediction. Specifically, to tailor the editor for this deterministic task, we reformulate the editor's original flow matching loss into the ``consistent velocity" training objective. And we use logarithmic quantization to resolve the precision conflict between the editor's native BFloat16 format and the high precision demand of our tasks. Additionally, we leverage the DiT's global attention for a cost-free joint estimation of depth and normals in a single forward pass, enabling their supervisory signals to mutually enhance each other. Without scaling up the training data, FE2E achieves impressive performance improvements in zero-shot monocular depth and normal estimation across multiple datasets. Notably, it achieves over 35\% performance gains on the ETH3D dataset and outperforms the DepthAnything series, which is trained on 100times data. The project page can be accessed https://amap-ml.github.io/FE2E/{here}.

Vom Editor zum Schätzer dichter Geometrie

From Editor to Dense Geometry Estimator

papers.abstract

Support