NanoVDR: Дистилляция 2-миллиардного визуально-языкового ритривера в 70-миллионный текстовый энкодер для визуального поиска документов

Аннотация

Ретриверы на основе моделей «визуальный язык» (VLM) вывели поиск визуальных документов (VDR) на впечатляющий уровень качества. Однако они требуют использования одного и того же энкодера с миллиардами параметров как для индексации документов, так и для кодирования запросов, что приводит к высокой задержке и зависимости от GPU даже для текстовых запросов. Мы наблюдаем, что такой дизайн избыточно симметричен: документы визуально сложны и требуют мощного визуального понимания, тогда как запросы — это просто короткие текстовые строки. NanoVDR использует эту асимметрию между запросом и документом, разделяя пути кодирования: замороженная VLM-учитель на 2 млрд параметров индексирует документы офлайн, а дистиллированный текстовый ученик размером всего 69 млн параметров кодирует запросы на этапе inference. Ключевым выбором дизайна является цель дистилляции. В результате систематического сравнения шести целей на трех архитектурах и 22 наборах данных бенчмарка ViDoRe мы обнаружили, что поэлементное косинусное выравнивание на тексте запроса стабильно превосходит ранжирующие и контрастивные альтернативы, при этом требуя только предварительно кэшированных эмбеддингов запросов от учителя и не требуя обработки документов во время обучения. Кроме того, мы выявили, что кросс-лингвальный перенос является основным узким местом производительности, и эффективно решаем эту проблему, дополняя обучающие данные машинно-переведенными запросами. Полученная модель NanoVDR-S-Multi (DistilBERT, 69M) сохраняет 95,1% качества учителя и превосходит DSE-Qwen2 (2B) на версиях v2 и v3, имея в 32 раза меньше параметров и в 50 раз ниже задержку запросов на CPU, при общих затратах на обучение менее 13 GPU-часов.

English

Vision-Language Model (VLM) based retrievers have advanced visual document retrieval (VDR) to impressive quality. They require the same multi-billion parameter encoder for both document indexing and query encoding, incurring high latency and GPU dependence even for plain-text queries. We observe that this design is unnecessarily symmetric: documents are visually complex and demand strong visual understanding, whereas queries are just short text strings. NanoVDR exploits this query--document asymmetry by decoupling the two encoding paths: a frozen 2B VLM teacher indexes documents offline, while a distilled text-only student as small as 69M parameters encodes queries at inference. The key design choice is the distillation objective. Through systematic comparison of six objectives across three backbones and 22 ViDoRe benchmark datasets, we find that pointwise cosine alignment on query text consistently outperforms ranking-based and contrastive alternatives, while requiring only pre-cached teacher query embeddings and no document processing during training. Furthermore, we identify cross-lingual transfer as the primary performance bottleneck, and resolve it cheaply by augmenting training data with machine-translated queries. The resulting NanoVDR-S-Multi (DistilBERT, 69M) retains 95.1\% of teacher quality and outperforms DSE-Qwen2 (2B) on v2 and v3 with 32times fewer parameters and 50times lower CPU query latency, at a total training cost under 13 GPU-hours.

NanoVDR: Дистилляция 2-миллиардного визуально-языкового ритривера в 70-миллионный текстовый энкодер для визуального поиска документов

NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval

Аннотация

Support