ChatPaper.aiChatPaper

NanoVDR: Destilando um Recuperador Visuo-Linguístico de 2B em um Codificador de Apenas Texto de 70M para Recuperação Visual de Documentos

NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval

March 13, 2026
Autores: Zhuchenyang Liu, Yao Zhang, Yu Xiao
cs.AI

Resumo

Os recuperadores baseados em Modelos de Visão e Linguagem (VLM) levaram a recuperação de documentos visuais (VDR) a uma qualidade impressionante. Eles exigem o mesmo codificador de bilhões de parâmetros tanto para a indexação de documentos quanto para a codificação de consultas, incorrendo em alta latência e dependência de GPU, mesmo para consultas de texto simples. Observamos que este projeto é desnecessariamente simétrico: os documentos são visualmente complexos e exigem uma forte compreensão visual, enquanto as consultas são apenas cadeias de texto curtas. O NanoVDR explora essa assimetria consulta-documento ao desacoplar os dois caminhos de codificação: um professor VLM congelado de 2B indexa documentos offline, enquanto um estudante destilado de apenas texto, com apenas 69M de parâmetros, codifica as consultas na inferência. A escolha de projeto chave é o objetivo de destilação. Através de uma comparação sistemática de seis objetivos em três *backbones* e 22 conjuntos de dados de benchmark do ViDoRe, descobrimos que o alinhamento cosseno pontual no texto da consulta supera consistentemente alternativas baseadas em classificação e contrastantes, enquanto requer apenas *embeddings* de consulta do professor pré-armazenados em cache e nenhum processamento de documentos durante o treinamento. Além disso, identificamos a transferência cross-lingual como o principal gargalo de desempenho e a resolvemos de forma barata, aumentando os dados de treinamento com consultas traduzidas automaticamente. O NanoVDR-S-Multi resultante (DistilBERT, 69M) retém 95,1% da qualidade do professor e supera o DSE-Qwen2 (2B) nas versões v2 e v3 com 32 vezes menos parâmetros e 50 vezes menor latência de consulta em CPU, a um custo total de treinamento inferior a 13 horas de GPU.
English
Vision-Language Model (VLM) based retrievers have advanced visual document retrieval (VDR) to impressive quality. They require the same multi-billion parameter encoder for both document indexing and query encoding, incurring high latency and GPU dependence even for plain-text queries. We observe that this design is unnecessarily symmetric: documents are visually complex and demand strong visual understanding, whereas queries are just short text strings. NanoVDR exploits this query--document asymmetry by decoupling the two encoding paths: a frozen 2B VLM teacher indexes documents offline, while a distilled text-only student as small as 69M parameters encodes queries at inference. The key design choice is the distillation objective. Through systematic comparison of six objectives across three backbones and 22 ViDoRe benchmark datasets, we find that pointwise cosine alignment on query text consistently outperforms ranking-based and contrastive alternatives, while requiring only pre-cached teacher query embeddings and no document processing during training. Furthermore, we identify cross-lingual transfer as the primary performance bottleneck, and resolve it cheaply by augmenting training data with machine-translated queries. The resulting NanoVDR-S-Multi (DistilBERT, 69M) retains 95.1\% of teacher quality and outperforms DSE-Qwen2 (2B) on v2 and v3 with 32times fewer parameters and 50times lower CPU query latency, at a total training cost under 13 GPU-hours.
PDF52March 30, 2026