Unificación de la Recuperación Multimodal mediante la Incrustación de Capturas de Pantalla de Documentos
Unifying Multimodal Retrieval via Document Screenshot Embedding
June 17, 2024
Autores: Xueguang Ma, Sheng-Chieh Lin, Minghan Li, Wenhu Chen, Jimmy Lin
cs.AI
Resumen
En el mundo real, los documentos están organizados en diferentes formatos y diversas modalidades. Los pipelines de recuperación tradicionales requieren técnicas de análisis de documentos personalizadas y módulos de extracción de contenido para preparar la entrada para la indexación. Este proceso es tedioso, propenso a errores y conlleva pérdida de información. Con este fin, proponemos Document Screenshot Embedding (DSE), un nuevo paradigma de recuperación que considera las capturas de pantalla de documentos como un formato de entrada unificado, el cual no requiere ningún preprocesamiento de extracción de contenido y preserva toda la información en un documento (por ejemplo, texto, imagen y diseño). DSE aprovecha un modelo grande de visión y lenguaje para codificar directamente las capturas de pantalla de documentos en representaciones densas para la recuperación. Para evaluar nuestro método, primero creamos el conjunto de datos de Wiki-SS, un corpus de 1.3 millones de capturas de pantalla de páginas web de Wikipedia, para responder a las preguntas del conjunto de datos Natural Questions. En este entorno de recuperación de documentos intensivo en texto, DSE muestra una efectividad competitiva en comparación con otros métodos de recuperación de texto que dependen del análisis. Por ejemplo, DSE supera a BM25 por 17 puntos en la precisión de recuperación top-1. Además, en una tarea de modalidad mixta de recuperación de diapositivas, DSE supera significativamente a los métodos de recuperación de texto OCR por más de 15 puntos en nDCG@10. Estos experimentos muestran que DSE es un paradigma efectivo de recuperación de documentos para diversos tipos de documentos. Los puntos de control del modelo, el código y la colección Wiki-SS serán publicados.
English
In the real world, documents are organized in different formats and varied
modalities. Traditional retrieval pipelines require tailored document parsing
techniques and content extraction modules to prepare input for indexing. This
process is tedious, prone to errors, and has information loss. To this end, we
propose Document Screenshot Embedding} (DSE), a novel retrieval paradigm that
regards document screenshots as a unified input format, which does not require
any content extraction preprocess and preserves all the information in a
document (e.g., text, image and layout). DSE leverages a large vision-language
model to directly encode document screenshots into dense representations for
retrieval. To evaluate our method, we first craft the dataset of Wiki-SS, a
1.3M Wikipedia web page screenshots as the corpus to answer the questions from
the Natural Questions dataset. In such a text-intensive document retrieval
setting, DSE shows competitive effectiveness compared to other text retrieval
methods relying on parsing. For example, DSE outperforms BM25 by 17 points in
top-1 retrieval accuracy. Additionally, in a mixed-modality task of slide
retrieval, DSE significantly outperforms OCR text retrieval methods by over 15
points in nDCG@10. These experiments show that DSE is an effective document
retrieval paradigm for diverse types of documents. Model checkpoints, code, and
Wiki-SS collection will be released.