NanoVDR: 20억 개 파라미터 시각-언어 검색기를 7000만 개 파라미터 텍스트 전용 인코더로 증류하여 시각 문서 검색에 적용
NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval
March 13, 2026
저자: Zhuchenyang Liu, Yao Zhang, Yu Xiao
cs.AI
초록
비전-언어 모델(VLM) 기반 검색기는 시각적 문서 검색(VDR)의 성능을 인상적인 수준으로 발전시켰습니다. 그러나 이러한 접근법은 문서 인덱싱과 질의 인코딩 모두에 동일한 수십억 개의 파라미터를 가진 인코더를 필요로 하여, 일반 텍스트 질의에서도 높은 지연 시간과 GPU 의존성을 초래합니다. 우리는 이러한 설계가 불필요하게 대칭적이라고 판단합니다: 문서는 시각적으로 복잡하여 강력한 시각적 이해를 요구하지만, 질의는 단순히 짧은 텍스트 문자열에 불과하기 때문입니다. NanoVDR은 이 질의-문서 비대칭성을 활용하여 두 인코딩 경로를 분리합니다: 고정된 20억 개 파라미터의 VLM 교사 모델이 오프라인에서 문서를 인덱싱하는 동안, 6900만 개 파라미터 규모의 작은 텍스트 전용 학생 모델이 추론 시 질의를 인코딩합니다. 핵심 설계 선택은 지식 증류 목표입니다. 3가지 백본과 22개의 ViDoRe 벤치마크 데이터셋에서 6가지 목표를 체계적으로 비교한 결과, 질의 텍스트에 대한 포인트와이즈 코사인 정렬이 순위 기반 및 대조 학습 대안들보다 consistently 더 나은 성능을 보였으며, 학습 시 사전 캐시된 교사 모델의 질의 임베딩만 필요하고 문서 처리는 전혀 필요하지 않다는 것을 발견했습니다. 더 나아가, 우리는 크로스링구얼 전이가 주요 성능 병목 현상임을 확인하고, 기계 번역된 질의로 학습 데이터를 증강하여 이를 저비용으로 해결했습니다. 그 결과誕生한 NanoVDR-S-Multi(DistilBERT, 69M)는 교사 모델 성능의 95.1%를 유지하며 v2 및 v3에서 DSE-Qwen2(2B)를 능가하는 동시에 파라미터 수는 32배 적고, CPU 질의 지연 시간은 50배 낮으며, 총 학습 비용은 13 GPU-시간 미만입니다.
English
Vision-Language Model (VLM) based retrievers have advanced visual document retrieval (VDR) to impressive quality. They require the same multi-billion parameter encoder for both document indexing and query encoding, incurring high latency and GPU dependence even for plain-text queries. We observe that this design is unnecessarily symmetric: documents are visually complex and demand strong visual understanding, whereas queries are just short text strings. NanoVDR exploits this query--document asymmetry by decoupling the two encoding paths: a frozen 2B VLM teacher indexes documents offline, while a distilled text-only student as small as 69M parameters encodes queries at inference. The key design choice is the distillation objective. Through systematic comparison of six objectives across three backbones and 22 ViDoRe benchmark datasets, we find that pointwise cosine alignment on query text consistently outperforms ranking-based and contrastive alternatives, while requiring only pre-cached teacher query embeddings and no document processing during training. Furthermore, we identify cross-lingual transfer as the primary performance bottleneck, and resolve it cheaply by augmenting training data with machine-translated queries. The resulting NanoVDR-S-Multi (DistilBERT, 69M) retains 95.1\% of teacher quality and outperforms DSE-Qwen2 (2B) on v2 and v3 with 32times fewer parameters and 50times lower CPU query latency, at a total training cost under 13 GPU-hours.