De l'éditeur à l'estimateur de géométrie dense
From Editor to Dense Geometry Estimator
September 4, 2025
papers.authors: JiYuan Wang, Chunyu Lin, Lei Sun, Rongying Liu, Lang Nie, Mingxing Li, Kang Liao, Xiangxiang Chu, Yao Zhao
cs.AI
papers.abstract
L'exploitation des connaissances visuelles préalables issues de modèles génératifs texte-à-image (T2I) pré-entraînés a montré des succès dans les tâches de prédiction dense. Cependant, la prédiction dense est intrinsèquement une tâche image-à-image, suggérant que les modèles d'édition d'images, plutôt que les modèles génératifs T2I, pourraient constituer une base plus adaptée pour le fine-tuning.
Motivés par cette observation, nous menons une analyse systématique des comportements de fine-tuning des éditeurs et des générateurs pour l'estimation de géométrie dense. Nos résultats montrent que les modèles d'édition possèdent des connaissances structurelles inhérentes, qui leur permettent de converger plus stablement en « affinant » leurs caractéristiques intrinsèques, et d'atteindre finalement des performances supérieures à celles de leurs homologues génératifs.
Sur la base de ces découvertes, nous introduisons FE2E, un cadre qui adapte de manière pionnière un modèle d'édition avancé basé sur l'architecture Diffusion Transformer (DiT) pour la prédiction de géométrie dense. Plus précisément, pour adapter l'éditeur à cette tâche déterministe, nous reformulons la fonction de perte originale de correspondance de flux de l'éditeur en un objectif d'entraînement de « vitesse cohérente ». Nous utilisons également la quantification logarithmique pour résoudre le conflit de précision entre le format natif BFloat16 de l'éditeur et la demande de haute précision de nos tâches. De plus, nous exploitons l'attention globale du DiT pour une estimation conjointe sans coût de la profondeur et des normales en une seule passe avant, permettant à leurs signaux de supervision de s'améliorer mutuellement.
Sans augmenter la quantité de données d'entraînement, FE2E réalise des améliorations impressionnantes de performance dans l'estimation de profondeur monoculaire et de normales en zero-shot sur plusieurs jeux de données. Notamment, il atteint des gains de performance de plus de 35 % sur le jeu de données ETH3D et surpasse la série DepthAnything, pourtant entraînée sur 100 fois plus de données. La page du projet est accessible ici : https://amap-ml.github.io/FE2E/.
English
Leveraging visual priors from pre-trained text-to-image (T2I) generative
models has shown success in dense prediction. However, dense prediction is
inherently an image-to-image task, suggesting that image editing models, rather
than T2I generative models, may be a more suitable foundation for fine-tuning.
Motivated by this, we conduct a systematic analysis of the fine-tuning
behaviors of both editors and generators for dense geometry estimation. Our
findings show that editing models possess inherent structural priors, which
enable them to converge more stably by ``refining" their innate features, and
ultimately achieve higher performance than their generative counterparts.
Based on these findings, we introduce FE2E, a framework that
pioneeringly adapts an advanced editing model based on Diffusion Transformer
(DiT) architecture for dense geometry prediction. Specifically, to tailor the
editor for this deterministic task, we reformulate the editor's original flow
matching loss into the ``consistent velocity" training objective. And we use
logarithmic quantization to resolve the precision conflict between the editor's
native BFloat16 format and the high precision demand of our tasks.
Additionally, we leverage the DiT's global attention for a cost-free joint
estimation of depth and normals in a single forward pass, enabling their
supervisory signals to mutually enhance each other.
Without scaling up the training data, FE2E achieves impressive performance
improvements in zero-shot monocular depth and normal estimation across multiple
datasets. Notably, it achieves over 35\% performance gains on the ETH3D dataset
and outperforms the DepthAnything series, which is trained on 100times data.
The project page can be accessed https://amap-ml.github.io/FE2E/{here}.