De l'éditeur à l'estimateur de géométrie dense

papers.abstract

L'exploitation des connaissances visuelles préalables issues de modèles génératifs texte-à-image (T2I) pré-entraînés a montré des succès dans les tâches de prédiction dense. Cependant, la prédiction dense est intrinsèquement une tâche image-à-image, suggérant que les modèles d'édition d'images, plutôt que les modèles génératifs T2I, pourraient constituer une base plus adaptée pour le fine-tuning. Motivés par cette observation, nous menons une analyse systématique des comportements de fine-tuning des éditeurs et des générateurs pour l'estimation de géométrie dense. Nos résultats montrent que les modèles d'édition possèdent des connaissances structurelles inhérentes, qui leur permettent de converger plus stablement en « affinant » leurs caractéristiques intrinsèques, et d'atteindre finalement des performances supérieures à celles de leurs homologues génératifs. Sur la base de ces découvertes, nous introduisons FE2E, un cadre qui adapte de manière pionnière un modèle d'édition avancé basé sur l'architecture Diffusion Transformer (DiT) pour la prédiction de géométrie dense. Plus précisément, pour adapter l'éditeur à cette tâche déterministe, nous reformulons la fonction de perte originale de correspondance de flux de l'éditeur en un objectif d'entraînement de « vitesse cohérente ». Nous utilisons également la quantification logarithmique pour résoudre le conflit de précision entre le format natif BFloat16 de l'éditeur et la demande de haute précision de nos tâches. De plus, nous exploitons l'attention globale du DiT pour une estimation conjointe sans coût de la profondeur et des normales en une seule passe avant, permettant à leurs signaux de supervision de s'améliorer mutuellement. Sans augmenter la quantité de données d'entraînement, FE2E réalise des améliorations impressionnantes de performance dans l'estimation de profondeur monoculaire et de normales en zero-shot sur plusieurs jeux de données. Notamment, il atteint des gains de performance de plus de 35 % sur le jeu de données ETH3D et surpasse la série DepthAnything, pourtant entraînée sur 100 fois plus de données. La page du projet est accessible ici : https://amap-ml.github.io/FE2E/.

English

Leveraging visual priors from pre-trained text-to-image (T2I) generative models has shown success in dense prediction. However, dense prediction is inherently an image-to-image task, suggesting that image editing models, rather than T2I generative models, may be a more suitable foundation for fine-tuning. Motivated by this, we conduct a systematic analysis of the fine-tuning behaviors of both editors and generators for dense geometry estimation. Our findings show that editing models possess inherent structural priors, which enable them to converge more stably by ``refining" their innate features, and ultimately achieve higher performance than their generative counterparts. Based on these findings, we introduce FE2E, a framework that pioneeringly adapts an advanced editing model based on Diffusion Transformer (DiT) architecture for dense geometry prediction. Specifically, to tailor the editor for this deterministic task, we reformulate the editor's original flow matching loss into the ``consistent velocity" training objective. And we use logarithmic quantization to resolve the precision conflict between the editor's native BFloat16 format and the high precision demand of our tasks. Additionally, we leverage the DiT's global attention for a cost-free joint estimation of depth and normals in a single forward pass, enabling their supervisory signals to mutually enhance each other. Without scaling up the training data, FE2E achieves impressive performance improvements in zero-shot monocular depth and normal estimation across multiple datasets. Notably, it achieves over 35\% performance gains on the ETH3D dataset and outperforms the DepthAnything series, which is trained on 100times data. The project page can be accessed https://amap-ml.github.io/FE2E/{here}.

De l'éditeur à l'estimateur de géométrie dense

From Editor to Dense Geometry Estimator

papers.abstract

Support