ChatPaper.aiChatPaper

DepthLM: Stima della Profondità Metrica da Modelli di Visione e Linguaggio

DepthLM: Metric Depth From Vision Language Models

September 29, 2025
Autori: Zhipeng Cai, Ching-Feng Yeh, Hu Xu, Zhuang Liu, Gregory Meyer, Xinjie Lei, Changsheng Zhao, Shang-Wen Li, Vikas Chandra, Yangyang Shi
cs.AI

Abstract

I modelli linguistici visivi (VLMs) possono affrontare in modo flessibile vari compiti visivi attraverso interazioni testuali. Sebbene abbiano successo nella comprensione semantica, i VLMs all'avanguardia, incluso GPT-5, faticano ancora a comprendere la tridimensionalità a partire da input bidimensionali. D'altra parte, i modelli visivi puri esperti raggiungono un'accuratezza sovrumana nella stima della profondità metrica, un compito chiave per la comprensione 3D. Tuttavia, richiedono architetture e funzioni di perdita specifiche per il compito. Tale differenza ci spinge a chiedere: i VLMs possono raggiungere un'accuratezza di livello esperto senza modifiche all'architettura o alla funzione di perdita? Prendiamo la stima della profondità metrica per pixel come compito rappresentativo e dimostriamo che la risposta è sì! Sorprendentemente, un'analisi completa mostra che il fine-tuning supervisionato basato su testo con etichette sparse è sufficiente affinché i VLMs sblocchino una forte comprensione 3D, senza bisogno di una testa di previsione densa o di complesse funzioni di perdita di regressione/regolarizzazione. Il collo di bottiglia per i VLMs risiede in realtà nel riferimento ai pixel e nell'ambiguità della fotocamera tra dataset, che affrontiamo attraverso prompt visivi e aumentazione condizionata intrinseca. Con modelli molto più piccoli, il nostro metodo DepthLM supera l'accuratezza della maggior parte dei VLMs avanzati di oltre 2 volte, rendendo per la prima volta i VLMs comparabili ai modelli visivi puri. Interessante notare che, senza un'imposizione esplicita durante l'addestramento, i VLMs addestrati con DepthLM evitano naturalmente l'eccessiva levigatezza, presentando molti meno punti volanti nelle regioni di confine rispetto ai modelli visivi puri. La semplicità di DepthLM consente inoltre a un singolo VLM di coprire vari compiti 3D oltre alla profondità metrica. Il nostro codice e modello saranno rilasciati al link sottostante.
English
Vision language models (VLMs) can flexibly address various vision tasks through text interactions. Although successful in semantic understanding, state-of-the-art VLMs including GPT-5 still struggle in understanding 3D from 2D inputs. On the other hand, expert pure vision models achieve super-human accuracy in metric depth estimation, a key 3D understanding task. However, they require task-specific architectures and losses. Such difference motivates us to ask: Can VLMs reach expert-level accuracy without architecture or loss change? We take per-pixel metric depth estimation as the representative task and show that the answer is yes! Surprisingly, comprehensive analysis shows that text-based supervised-finetuning with sparse labels is sufficient for VLMs to unlock strong 3D understanding, no dense prediction head or complex regression/regularization loss is needed. The bottleneck for VLMs lies actually in pixel reference and cross-dataset camera ambiguity, which we address through visual prompting and intrinsic-conditioned augmentation. With much smaller models, our method DepthLM surpasses the accuracy of most advanced VLMs by over 2x, making VLMs for the first time comparable with pure vision models. Interestingly, without explicit enforcement during training, VLMs trained with DepthLM naturally avoids over-smoothing, having much fewer flying points at boundary regions than pure vision models. The simplicity of DepthLM also enables a single VLM to cover various 3D tasks beyond metric depth. Our code and model will be released at the link below.
PDF61October 1, 2025