NanoVDR: Destillation eines 2B-Vision-Language-Retrievers in einen 70M-Text-Only-Encoder für visuelle Dokumentenretrieval
NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval
March 13, 2026
Autoren: Zhuchenyang Liu, Yao Zhang, Yu Xiao
cs.AI
Zusammenfassung
Vision-Language Model (VLM)-basierte Retriever haben die visuelle Dokumentenretrieval (VDR) auf eine beeindruckende Qualität gebracht. Sie benötigen denselben Multi-Milliarden-Parameter-Encoder sowohl für die Dokumentenindizierung als auch für die Query-Kodierung, was zu hoher Latenz und GPU-Abhängigkeit führt, selbst bei reinen Text-Queries. Wir beobachten, dass dieses Design unnötig symmetrisch ist: Dokumente sind visuell komplex und erfordern ein starkes visuelles Verständnis, während Queries lediglich kurze Textstrings sind. NanoVDR nutzt diese Query-Dokument-Asymmetrie, indem es die beiden Kodierungspfade entkoppelt: Ein eingefrorener 2B-VLM-Lehrer indiziert Dokumente offline, während ein destillierter, nur-Text-Student mit nur 69M Parametern Queries zur Inferenzzeit kodiert. Die zentrale Designentscheidung ist das Distillationsziel. Durch einen systematischen Vergleich von sechs Zielen über drei Backbones und 22 ViDoRe-Benchmark-Datensätzen hinweg stellen wir fest, dass punktweise Kosinus-Alignment auf Query-Text durchgängig ranking-basierte und kontrastive Alternativen übertrifft, während es nur vorab zwischengespeicherte Lehrer-Query-Embeddings und keine Dokumentenverarbeitung während des Trainings erfordert. Darüber hinaus identifizieren wir cross-lingualen Transfer als primären Leistungsengpass und lösen ihn kostengünstig, indem wir Trainingsdaten mit maschinell übersetzten Queries anreichern. Der resultierende NanoVDR-S-Multi (DistilBERT, 69M) behält 95,1 % der Lehrerqualität bei und übertrifft DSE-Qwen2 (2B) auf v2 und v3 mit 32-mal weniger Parametern und 50-mal niedrigerer CPU-Query-Latenz bei Gesamttrainingskosten von unter 13 GPU-Stunden.
English
Vision-Language Model (VLM) based retrievers have advanced visual document retrieval (VDR) to impressive quality. They require the same multi-billion parameter encoder for both document indexing and query encoding, incurring high latency and GPU dependence even for plain-text queries. We observe that this design is unnecessarily symmetric: documents are visually complex and demand strong visual understanding, whereas queries are just short text strings. NanoVDR exploits this query--document asymmetry by decoupling the two encoding paths: a frozen 2B VLM teacher indexes documents offline, while a distilled text-only student as small as 69M parameters encodes queries at inference. The key design choice is the distillation objective. Through systematic comparison of six objectives across three backbones and 22 ViDoRe benchmark datasets, we find that pointwise cosine alignment on query text consistently outperforms ranking-based and contrastive alternatives, while requiring only pre-cached teacher query embeddings and no document processing during training. Furthermore, we identify cross-lingual transfer as the primary performance bottleneck, and resolve it cheaply by augmenting training data with machine-translated queries. The resulting NanoVDR-S-Multi (DistilBERT, 69M) retains 95.1\% of teacher quality and outperforms DSE-Qwen2 (2B) on v2 and v3 with 32times fewer parameters and 50times lower CPU query latency, at a total training cost under 13 GPU-hours.