ChatPaper.aiChatPaper

NanoVDR: Destilación de un Recuperador Visual-Lingüístico de 2B en un Codificador de Solo Texto de 70M para la Recuperación Visual de Documentos

NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval

March 13, 2026
Autores: Zhuchenyang Liu, Yao Zhang, Yu Xiao
cs.AI

Resumen

Los recuperadores basados en Modelos de Visión y Lenguaje (VLM) han llevado la recuperación visual de documentos (VDR) a una calidad impresionante. Estos sistemas requieren el mismo codificador de miles de millones de parámetros tanto para la indexación de documentos como para la codificación de consultas, lo que genera una alta latencia y dependencia de GPU, incluso para consultas de texto plano. Observamos que este diseño es innecesariamente simétrico: los documentos son visualmente complejos y exigen una fuerte comprensión visual, mientras que las consultas son simplemente cadenas de texto cortas. NanoVDR explota esta asimetría consulta-documento desacoplando las dos rutas de codificación: un profesor VLM congelado de 2B indexa los documentos sin conexión, mientras que un estudiante de solo texto, destilado y con tan solo 69M de parámetros, codifica las consultas en la inferencia. La elección de diseño clave es el objetivo de destilación. Mediante una comparación sistemática de seis objetivos en tres arquitecturas base y 22 conjuntos de datos de referencia de ViDoRe, encontramos que la alineación coseno puntual en el texto de la consulta supera consistentemente a las alternativas basadas en ranking y contrastivas, mientras que requiere solo incrustaciones de consulta del profesor pre-cacheadas y ningún procesamiento de documentos durante el entrenamiento. Además, identificamos la transferencia transcultural como el principal cuello de botella de rendimiento, y lo resolvemos de manera económica aumentando los datos de entrenamiento con consultas traducidas automáticamente. El NanoVDR-S-Multi resultante (DistilBERT, 69M) retiene el 95.1% de la calidad del profesor y supera a DSE-Qwen2 (2B) en las versiones v2 y v3 con 32 veces menos parámetros y 50 veces menos latencia de consulta en CPU, con un coste total de entrenamiento inferior a 13 horas GPU.
English
Vision-Language Model (VLM) based retrievers have advanced visual document retrieval (VDR) to impressive quality. They require the same multi-billion parameter encoder for both document indexing and query encoding, incurring high latency and GPU dependence even for plain-text queries. We observe that this design is unnecessarily symmetric: documents are visually complex and demand strong visual understanding, whereas queries are just short text strings. NanoVDR exploits this query--document asymmetry by decoupling the two encoding paths: a frozen 2B VLM teacher indexes documents offline, while a distilled text-only student as small as 69M parameters encodes queries at inference. The key design choice is the distillation objective. Through systematic comparison of six objectives across three backbones and 22 ViDoRe benchmark datasets, we find that pointwise cosine alignment on query text consistently outperforms ranking-based and contrastive alternatives, while requiring only pre-cached teacher query embeddings and no document processing during training. Furthermore, we identify cross-lingual transfer as the primary performance bottleneck, and resolve it cheaply by augmenting training data with machine-translated queries. The resulting NanoVDR-S-Multi (DistilBERT, 69M) retains 95.1\% of teacher quality and outperforms DSE-Qwen2 (2B) on v2 and v3 with 32times fewer parameters and 50times lower CPU query latency, at a total training cost under 13 GPU-hours.
PDF52March 30, 2026