Unificación de la Recuperación Multimodal mediante la Incrustación de Capturas de Pantalla de Documentos

Resumen

En el mundo real, los documentos están organizados en diferentes formatos y diversas modalidades. Los pipelines de recuperación tradicionales requieren técnicas de análisis de documentos personalizadas y módulos de extracción de contenido para preparar la entrada para la indexación. Este proceso es tedioso, propenso a errores y conlleva pérdida de información. Con este fin, proponemos Document Screenshot Embedding (DSE), un nuevo paradigma de recuperación que considera las capturas de pantalla de documentos como un formato de entrada unificado, el cual no requiere ningún preprocesamiento de extracción de contenido y preserva toda la información en un documento (por ejemplo, texto, imagen y diseño). DSE aprovecha un modelo grande de visión y lenguaje para codificar directamente las capturas de pantalla de documentos en representaciones densas para la recuperación. Para evaluar nuestro método, primero creamos el conjunto de datos de Wiki-SS, un corpus de 1.3 millones de capturas de pantalla de páginas web de Wikipedia, para responder a las preguntas del conjunto de datos Natural Questions. En este entorno de recuperación de documentos intensivo en texto, DSE muestra una efectividad competitiva en comparación con otros métodos de recuperación de texto que dependen del análisis. Por ejemplo, DSE supera a BM25 por 17 puntos en la precisión de recuperación top-1. Además, en una tarea de modalidad mixta de recuperación de diapositivas, DSE supera significativamente a los métodos de recuperación de texto OCR por más de 15 puntos en nDCG@10. Estos experimentos muestran que DSE es un paradigma efectivo de recuperación de documentos para diversos tipos de documentos. Los puntos de control del modelo, el código y la colección Wiki-SS serán publicados.

English

In the real world, documents are organized in different formats and varied modalities. Traditional retrieval pipelines require tailored document parsing techniques and content extraction modules to prepare input for indexing. This process is tedious, prone to errors, and has information loss. To this end, we propose Document Screenshot Embedding} (DSE), a novel retrieval paradigm that regards document screenshots as a unified input format, which does not require any content extraction preprocess and preserves all the information in a document (e.g., text, image and layout). DSE leverages a large vision-language model to directly encode document screenshots into dense representations for retrieval. To evaluate our method, we first craft the dataset of Wiki-SS, a 1.3M Wikipedia web page screenshots as the corpus to answer the questions from the Natural Questions dataset. In such a text-intensive document retrieval setting, DSE shows competitive effectiveness compared to other text retrieval methods relying on parsing. For example, DSE outperforms BM25 by 17 points in top-1 retrieval accuracy. Additionally, in a mixed-modality task of slide retrieval, DSE significantly outperforms OCR text retrieval methods by over 15 points in nDCG@10. These experiments show that DSE is an effective document retrieval paradigm for diverse types of documents. Model checkpoints, code, and Wiki-SS collection will be released.

Unificación de la Recuperación Multimodal mediante la Incrustación de Capturas de Pantalla de Documentos

Unifying Multimodal Retrieval via Document Screenshot Embedding

Resumen

Support