De Editor a Estimador de Geometría Densa
From Editor to Dense Geometry Estimator
September 4, 2025
Autores: JiYuan Wang, Chunyu Lin, Lei Sun, Rongying Liu, Lang Nie, Mingxing Li, Kang Liao, Xiangxiang Chu, Yao Zhao
cs.AI
Resumen
Aprovechar los conocimientos visuales previos de modelos generativos de texto a imagen (T2I) preentrenados ha demostrado ser exitoso en predicción densa. Sin embargo, la predicción densa es inherentemente una tarea de imagen a imagen, lo que sugiere que los modelos de edición de imágenes, en lugar de los modelos generativos T2I, podrían ser una base más adecuada para el ajuste fino.
Motivados por esto, realizamos un análisis sistemático del comportamiento de ajuste fino tanto de editores como de generadores para la estimación de geometría densa. Nuestros hallazgos muestran que los modelos de edición poseen conocimientos estructurales inherentes, lo que les permite converger de manera más estable al "refinar" sus características innatas y, en última instancia, alcanzar un rendimiento superior al de sus contrapartes generativas.
Basándonos en estos hallazgos, presentamos FE2E, un marco que adapta de manera pionera un modelo de edición avanzado basado en la arquitectura Diffusion Transformer (DiT) para la predicción de geometría densa. Específicamente, para adaptar el editor a esta tarea determinista, reformulamos la función de pérdida original de coincidencia de flujo del editor en el objetivo de entrenamiento de "velocidad consistente". Además, utilizamos cuantificación logarítmica para resolver el conflicto de precisión entre el formato nativo BFloat16 del editor y la alta demanda de precisión de nuestras tareas. Adicionalmente, aprovechamos la atención global de DiT para una estimación conjunta sin costo adicional de profundidad y normales en un solo paso hacia adelante, permitiendo que sus señales de supervisión se refuercen mutuamente.
Sin aumentar el volumen de datos de entrenamiento, FE2E logra mejoras impresionantes en el rendimiento de estimación de profundidad y normales monoculares en modo zero-shot en múltiples conjuntos de datos. Notablemente, alcanza ganancias de rendimiento superiores al 35% en el conjunto de datos ETH3D y supera a la serie DepthAnything, que está entrenada con 100 veces más datos. La página del proyecto puede accederse {aquí}(https://amap-ml.github.io/FE2E/).
English
Leveraging visual priors from pre-trained text-to-image (T2I) generative
models has shown success in dense prediction. However, dense prediction is
inherently an image-to-image task, suggesting that image editing models, rather
than T2I generative models, may be a more suitable foundation for fine-tuning.
Motivated by this, we conduct a systematic analysis of the fine-tuning
behaviors of both editors and generators for dense geometry estimation. Our
findings show that editing models possess inherent structural priors, which
enable them to converge more stably by ``refining" their innate features, and
ultimately achieve higher performance than their generative counterparts.
Based on these findings, we introduce FE2E, a framework that
pioneeringly adapts an advanced editing model based on Diffusion Transformer
(DiT) architecture for dense geometry prediction. Specifically, to tailor the
editor for this deterministic task, we reformulate the editor's original flow
matching loss into the ``consistent velocity" training objective. And we use
logarithmic quantization to resolve the precision conflict between the editor's
native BFloat16 format and the high precision demand of our tasks.
Additionally, we leverage the DiT's global attention for a cost-free joint
estimation of depth and normals in a single forward pass, enabling their
supervisory signals to mutually enhance each other.
Without scaling up the training data, FE2E achieves impressive performance
improvements in zero-shot monocular depth and normal estimation across multiple
datasets. Notably, it achieves over 35\% performance gains on the ETH3D dataset
and outperforms the DepthAnything series, which is trained on 100times data.
The project page can be accessed https://amap-ml.github.io/FE2E/{here}.