De Editor para Estimador de Geometria Densa
From Editor to Dense Geometry Estimator
September 4, 2025
Autores: JiYuan Wang, Chunyu Lin, Lei Sun, Rongying Liu, Lang Nie, Mingxing Li, Kang Liao, Xiangxiang Chu, Yao Zhao
cs.AI
Resumo
Aproveitar os priors visuais de modelos generativos pré-treinados de texto para imagem (T2I) tem mostrado sucesso em predição densa. No entanto, a predição densa é, por natureza, uma tarefa de imagem para imagem, sugerindo que modelos de edição de imagem, em vez de modelos generativos T2I, podem ser uma base mais adequada para ajuste fino.
Motivados por isso, realizamos uma análise sistemática dos comportamentos de ajuste fino tanto de editores quanto de geradores para estimativa de geometria densa. Nossas descobertas mostram que os modelos de edição possuem priors estruturais inerentes, que permitem que eles convirjam de forma mais estável ao "refinar" suas características inatas e, por fim, alcancem um desempenho superior ao de seus equivalentes generativos.
Com base nessas descobertas, introduzimos o FE2E, um framework que pioneiramente adapta um modelo de edição avançado baseado na arquitetura Diffusion Transformer (DiT) para predição de geometria densa. Especificamente, para adaptar o editor a essa tarefa determinística, reformulamos a função de perda original de correspondência de fluxo do editor no objetivo de treinamento de "velocidade consistente". Além disso, usamos quantização logarítmica para resolver o conflito de precisão entre o formato nativo BFloat16 do editor e a alta demanda de precisão de nossas tarefas. Adicionalmente, aproveitamos a atenção global do DiT para uma estimativa conjunta de profundidade e normais em uma única passagem, permitindo que seus sinais de supervisão se reforcem mutuamente.
Sem aumentar o volume de dados de treinamento, o FE2E alcança melhorias impressionantes de desempenho em estimativa zero-shot de profundidade e normais monoculares em múltiplos conjuntos de dados. Notavelmente, ele alcança ganhos de desempenho superiores a 35% no conjunto de dados ETH3D e supera a série DepthAnything, que é treinada com 100 vezes mais dados. A página do projeto pode ser acessada {aqui} https://amap-ml.github.io/FE2E/.
English
Leveraging visual priors from pre-trained text-to-image (T2I) generative
models has shown success in dense prediction. However, dense prediction is
inherently an image-to-image task, suggesting that image editing models, rather
than T2I generative models, may be a more suitable foundation for fine-tuning.
Motivated by this, we conduct a systematic analysis of the fine-tuning
behaviors of both editors and generators for dense geometry estimation. Our
findings show that editing models possess inherent structural priors, which
enable them to converge more stably by ``refining" their innate features, and
ultimately achieve higher performance than their generative counterparts.
Based on these findings, we introduce FE2E, a framework that
pioneeringly adapts an advanced editing model based on Diffusion Transformer
(DiT) architecture for dense geometry prediction. Specifically, to tailor the
editor for this deterministic task, we reformulate the editor's original flow
matching loss into the ``consistent velocity" training objective. And we use
logarithmic quantization to resolve the precision conflict between the editor's
native BFloat16 format and the high precision demand of our tasks.
Additionally, we leverage the DiT's global attention for a cost-free joint
estimation of depth and normals in a single forward pass, enabling their
supervisory signals to mutually enhance each other.
Without scaling up the training data, FE2E achieves impressive performance
improvements in zero-shot monocular depth and normal estimation across multiple
datasets. Notably, it achieves over 35\% performance gains on the ETH3D dataset
and outperforms the DepthAnything series, which is trained on 100times data.
The project page can be accessed https://amap-ml.github.io/FE2E/{here}.