De Editor a Estimador de Geometría Densa

Resumen

Aprovechar los conocimientos visuales previos de modelos generativos de texto a imagen (T2I) preentrenados ha demostrado ser exitoso en predicción densa. Sin embargo, la predicción densa es inherentemente una tarea de imagen a imagen, lo que sugiere que los modelos de edición de imágenes, en lugar de los modelos generativos T2I, podrían ser una base más adecuada para el ajuste fino. Motivados por esto, realizamos un análisis sistemático del comportamiento de ajuste fino tanto de editores como de generadores para la estimación de geometría densa. Nuestros hallazgos muestran que los modelos de edición poseen conocimientos estructurales inherentes, lo que les permite converger de manera más estable al "refinar" sus características innatas y, en última instancia, alcanzar un rendimiento superior al de sus contrapartes generativas. Basándonos en estos hallazgos, presentamos FE2E, un marco que adapta de manera pionera un modelo de edición avanzado basado en la arquitectura Diffusion Transformer (DiT) para la predicción de geometría densa. Específicamente, para adaptar el editor a esta tarea determinista, reformulamos la función de pérdida original de coincidencia de flujo del editor en el objetivo de entrenamiento de "velocidad consistente". Además, utilizamos cuantificación logarítmica para resolver el conflicto de precisión entre el formato nativo BFloat16 del editor y la alta demanda de precisión de nuestras tareas. Adicionalmente, aprovechamos la atención global de DiT para una estimación conjunta sin costo adicional de profundidad y normales en un solo paso hacia adelante, permitiendo que sus señales de supervisión se refuercen mutuamente. Sin aumentar el volumen de datos de entrenamiento, FE2E logra mejoras impresionantes en el rendimiento de estimación de profundidad y normales monoculares en modo zero-shot en múltiples conjuntos de datos. Notablemente, alcanza ganancias de rendimiento superiores al 35% en el conjunto de datos ETH3D y supera a la serie DepthAnything, que está entrenada con 100 veces más datos. La página del proyecto puede accederse {aquí}(https://amap-ml.github.io/FE2E/).

English

Leveraging visual priors from pre-trained text-to-image (T2I) generative models has shown success in dense prediction. However, dense prediction is inherently an image-to-image task, suggesting that image editing models, rather than T2I generative models, may be a more suitable foundation for fine-tuning. Motivated by this, we conduct a systematic analysis of the fine-tuning behaviors of both editors and generators for dense geometry estimation. Our findings show that editing models possess inherent structural priors, which enable them to converge more stably by ``refining" their innate features, and ultimately achieve higher performance than their generative counterparts. Based on these findings, we introduce FE2E, a framework that pioneeringly adapts an advanced editing model based on Diffusion Transformer (DiT) architecture for dense geometry prediction. Specifically, to tailor the editor for this deterministic task, we reformulate the editor's original flow matching loss into the ``consistent velocity" training objective. And we use logarithmic quantization to resolve the precision conflict between the editor's native BFloat16 format and the high precision demand of our tasks. Additionally, we leverage the DiT's global attention for a cost-free joint estimation of depth and normals in a single forward pass, enabling their supervisory signals to mutually enhance each other. Without scaling up the training data, FE2E achieves impressive performance improvements in zero-shot monocular depth and normal estimation across multiple datasets. Notably, it achieves over 35\% performance gains on the ETH3D dataset and outperforms the DepthAnything series, which is trained on 100times data. The project page can be accessed https://amap-ml.github.io/FE2E/{here}.

De Editor a Estimador de Geometría Densa

From Editor to Dense Geometry Estimator

Resumen

Support