NanoVDR : Distillation d'un récupérateur vision-langage de 2B paramètres en un encodeur texte uniquement de 70M pour la recherche de documents visuels

Résumé

Les modèles de récupération basés sur des modèles vision-langage (VLM) ont porté la qualité de la récupération de documents visuels (VDR) à un niveau impressionnant. Ils nécessitent un encodeur de plusieurs milliards de paramètres, identique pour l'indexation des documents et l'encodage des requêtes, ce qui entraîne une latence élevée et une dépendance aux GPU, même pour les requêtes en texte brut. Nous observons que cette conception est inutilement symétrique : les documents sont visuellement complexes et exigent une compréhension visuelle robuste, tandis que les requêtes ne sont que de courtes chaînes de texte. NanoVDR exploite cette asymétrie requête-document en découplant les deux chemins d'encodage : un enseignant VLM gelé de 2 milliards de paramètres indexe les documents hors ligne, tandis qu'un étudiant distillée, uniquement textuel et d'une taille pouvant aller jusqu'à 69 millions de paramètres, encode les requêtes lors de l'inférence. Le choix clé de la conception réside dans l'objectif de distillation. Par une comparaison systématique de six objectifs sur trois architectures de base et 22 ensembles de données de référence ViDoRe, nous constatons que l'alignement cosinus point par point sur le texte de la requête surpasse constamment les alternatives basées sur le classement et les méthodes contrastives, tout en ne nécessitant que des embeddings de requêtes de l'enseignant précalculés et aucun traitement de document pendant l'entraînement. De plus, nous identifions le transfert translinguistique comme le principal goulot d'étranglement des performances, et nous le résolvons économiquement en enrichissant les données d'entraînement avec des requêtes traduites automatiquement. Le NanoVDR-S-Multi (DistilBERT, 69M) qui en résulte conserve 95,1 % de la qualité de l'enseignant et surpasse DSE-Qwen2 (2B) sur les versions v2 et v3 avec 32 fois moins de paramètres et une latence des requêtes CPU 50 fois plus faible, pour un coût total d'entraînement inférieur à 13 heures GPU.

English

Vision-Language Model (VLM) based retrievers have advanced visual document retrieval (VDR) to impressive quality. They require the same multi-billion parameter encoder for both document indexing and query encoding, incurring high latency and GPU dependence even for plain-text queries. We observe that this design is unnecessarily symmetric: documents are visually complex and demand strong visual understanding, whereas queries are just short text strings. NanoVDR exploits this query--document asymmetry by decoupling the two encoding paths: a frozen 2B VLM teacher indexes documents offline, while a distilled text-only student as small as 69M parameters encodes queries at inference. The key design choice is the distillation objective. Through systematic comparison of six objectives across three backbones and 22 ViDoRe benchmark datasets, we find that pointwise cosine alignment on query text consistently outperforms ranking-based and contrastive alternatives, while requiring only pre-cached teacher query embeddings and no document processing during training. Furthermore, we identify cross-lingual transfer as the primary performance bottleneck, and resolve it cheaply by augmenting training data with machine-translated queries. The resulting NanoVDR-S-Multi (DistilBERT, 69M) retains 95.1\% of teacher quality and outperforms DSE-Qwen2 (2B) on v2 and v3 with 32times fewer parameters and 50times lower CPU query latency, at a total training cost under 13 GPU-hours.

NanoVDR : Distillation d'un récupérateur vision-langage de 2B paramètres en un encodeur texte uniquement de 70M pour la recherche de documents visuels

NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval

Résumé

Support