ChatPaper.aiChatPaper

NanoVDR: Distillazione di un Recuperatore Visivo-Linguistico da 2B in un Codificatore Solo Testo da 70M per il Recupero di Documenti Visivi

NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval

March 13, 2026
Autori: Zhuchenyang Liu, Yao Zhang, Yu Xiao
cs.AI

Abstract

I modelli di recupero basati su Vision-Language Model (VLM) hanno portato il recupero di documenti visivi (VDR) a livelli di qualità impressionanti. Tuttavia, richiedono lo stesso encoder da miliardi di parametri sia per l'indicizzazione dei documenti che per la codifica delle query, comportando latenze elevate e una forte dipendenza dalla GPU anche per query di solo testo. Osserviamo che questo progetto è inutilmente simmetrico: i documenti sono visivamente complessi e richiedono una forte comprensione visiva, mentre le query sono semplici stringhe di testo brevi. NanoVDR sfrutta questa asimmetria query-documento disaccoppiando i due percorsi di codifica: un insegnante VLM da 2 miliardi di parametri, congelato, indicizza i documenti offline, mentre uno studente distillato di solo testo, di dimensioni ridotte come 69 milioni di parametri, codifica le query in fase di inferenza. La scelta progettuale chiave è l'obiettivo della distillazione. Attraverso un confronto sistematico di sei obiettivi su tre backbone e 22 dataset di benchmark ViDoRe, scopriamo che l'allineamento punto per punto del coseno sul testo della query supera costantemente le alternative basate sul ranking e contrastive, richiedendo solo embedding delle query dell'insegnante pre-memorizzati nella cache e nessuna elaborazione dei documenti durante l'addestramento. Inoltre, identifichiamo il trasferimento cross-linguale come il collo di bottiglia primario delle prestazioni, e lo risolviamo economicamente aumentando i dati di addestramento con query tradotte automaticamente. Il risultante NanoVDR-S-Multi (DistilBERT, 69M) mantiene il 95,1% della qualità dell'insegnante e supera DSE-Qwen2 (2B) sulle versioni v2 e v3 con 32 volte meno parametri e una latenza di query su CPU 50 volte inferiore, a un costo totale di addestramento inferiore a 13 ore GPU.
English
Vision-Language Model (VLM) based retrievers have advanced visual document retrieval (VDR) to impressive quality. They require the same multi-billion parameter encoder for both document indexing and query encoding, incurring high latency and GPU dependence even for plain-text queries. We observe that this design is unnecessarily symmetric: documents are visually complex and demand strong visual understanding, whereas queries are just short text strings. NanoVDR exploits this query--document asymmetry by decoupling the two encoding paths: a frozen 2B VLM teacher indexes documents offline, while a distilled text-only student as small as 69M parameters encodes queries at inference. The key design choice is the distillation objective. Through systematic comparison of six objectives across three backbones and 22 ViDoRe benchmark datasets, we find that pointwise cosine alignment on query text consistently outperforms ranking-based and contrastive alternatives, while requiring only pre-cached teacher query embeddings and no document processing during training. Furthermore, we identify cross-lingual transfer as the primary performance bottleneck, and resolve it cheaply by augmenting training data with machine-translated queries. The resulting NanoVDR-S-Multi (DistilBERT, 69M) retains 95.1\% of teacher quality and outperforms DSE-Qwen2 (2B) on v2 and v3 with 32times fewer parameters and 50times lower CPU query latency, at a total training cost under 13 GPU-hours.
PDF52March 30, 2026