NanoVDR: Distillatie van een 2B Vision-Language Retriever naar een 70M Tekst-Only Encoder voor Visuele Documentretrieval

Samenvatting

Op Vision-Language Models (VLM) gebaseerde retrievers hebben visuele documentretrieval (VDR) naar een indrukwekkende kwaliteit gebracht. Zij vereisen echter dezelfde encoder met miljarden parameters voor zowel het indexeren van documenten als het encoderen van zoekopdrachten, wat resulteert in hoge latentie en afhankelijkheid van GPU's, zelfs voor queries met alleen tekst. Wij observeren dat dit ontwerp onnodig symmetrisch is: documenten zijn visueel complex en vereisen een sterk visueel begrip, terwijl zoekopdrachten slechts korte tekststrings zijn. NanoVDR benut deze asymmetrie tussen query en document door de twee encoderingspaden te ontkoppelen: een bevroren VLM-leraar van 2B parameters indexeert documenten offline, terwijl een gedistilleerde, uitsluitend op tekst gebaseerde student van slechts 69M parameters de zoekopdrachten tijdens de inferentie encodeert. De belangrijkste ontwerpkeuze is het distillatiedoel. Door een systematische vergelijking van zes doelstellingen over drie backbones en 22 ViDoRe benchmarkdatasets, constateren we dat pointwise cosine alignment op querytekst consequent beter presteert dan op ranking gebaseerde en contrastieve alternatieven, terwijl het alleen vooraf gecachette leraar-query-embeddingen vereist en geen documentverwerking tijdens de training. Verder identificeren we cross-linguale transfer als de primaire prestatiebottleneck en lossen we deze kosteneffectief op door trainingsdata aan te vullen met machinaal vertaalde queries. De resulterende NanoVDR-S-Multi (DistilBERT, 69M) behoudt 95,1% van de kwaliteit van de leraar en presteert beter dan DSE-Qwen2 (2B) op v2 en v3 met 32 keer minder parameters en 50 keer lagere CPU-querylatentie, tegen totale trainingskosten van minder dan 13 GPU-uren.

English

Vision-Language Model (VLM) based retrievers have advanced visual document retrieval (VDR) to impressive quality. They require the same multi-billion parameter encoder for both document indexing and query encoding, incurring high latency and GPU dependence even for plain-text queries. We observe that this design is unnecessarily symmetric: documents are visually complex and demand strong visual understanding, whereas queries are just short text strings. NanoVDR exploits this query--document asymmetry by decoupling the two encoding paths: a frozen 2B VLM teacher indexes documents offline, while a distilled text-only student as small as 69M parameters encodes queries at inference. The key design choice is the distillation objective. Through systematic comparison of six objectives across three backbones and 22 ViDoRe benchmark datasets, we find that pointwise cosine alignment on query text consistently outperforms ranking-based and contrastive alternatives, while requiring only pre-cached teacher query embeddings and no document processing during training. Furthermore, we identify cross-lingual transfer as the primary performance bottleneck, and resolve it cheaply by augmenting training data with machine-translated queries. The resulting NanoVDR-S-Multi (DistilBERT, 69M) retains 95.1\% of teacher quality and outperforms DSE-Qwen2 (2B) on v2 and v3 with 32times fewer parameters and 50times lower CPU query latency, at a total training cost under 13 GPU-hours.

NanoVDR: Distillatie van een 2B Vision-Language Retriever naar een 70M Tekst-Only Encoder voor Visuele Documentretrieval

NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval

Samenvatting

Support