ChatPaper.aiChatPaper

Unificazione del Recupero Multimodale tramite Embedding di Screenshot Documentali

Unifying Multimodal Retrieval via Document Screenshot Embedding

June 17, 2024
Autori: Xueguang Ma, Sheng-Chieh Lin, Minghan Li, Wenhu Chen, Jimmy Lin
cs.AI

Abstract

Nel mondo reale, i documenti sono organizzati in formati diversi e con modalità variate. Le pipeline di recupero tradizionali richiedono tecniche di parsing dei documenti personalizzate e moduli di estrazione del contenuto per preparare l'input per l'indicizzazione. Questo processo è tedioso, soggetto a errori e comporta una perdita di informazioni. A tal fine, proponiamo Document Screenshot Embedding (DSE), un nuovo paradigma di recupero che considera gli screenshot dei documenti come un formato di input unificato, il quale non richiede alcun preprocesso di estrazione del contenuto e preserva tutte le informazioni di un documento (ad esempio, testo, immagini e layout). DSE sfrutta un modello vision-language di grandi dimensioni per codificare direttamente gli screenshot dei documenti in rappresentazioni dense per il recupero. Per valutare il nostro metodo, abbiamo prima creato il dataset Wiki-SS, un corpus di 1,3 milioni di screenshot di pagine web di Wikipedia, per rispondere alle domande del dataset Natural Questions. In un contesto di recupero di documenti intensivi di testo, DSE mostra un'efficacia competitiva rispetto ad altri metodi di recupero del testo che si basano sul parsing. Ad esempio, DSE supera BM25 di 17 punti in termini di accuratezza di recupero top-1. Inoltre, in un'attività di recupero di slide con modalità mista, DSE supera significativamente i metodi di recupero del testo OCR di oltre 15 punti in nDCG@10. Questi esperimenti dimostrano che DSE è un paradigma efficace per il recupero di documenti di vario tipo. I checkpoint del modello, il codice e la collezione Wiki-SS saranno rilasciati.
English
In the real world, documents are organized in different formats and varied modalities. Traditional retrieval pipelines require tailored document parsing techniques and content extraction modules to prepare input for indexing. This process is tedious, prone to errors, and has information loss. To this end, we propose Document Screenshot Embedding} (DSE), a novel retrieval paradigm that regards document screenshots as a unified input format, which does not require any content extraction preprocess and preserves all the information in a document (e.g., text, image and layout). DSE leverages a large vision-language model to directly encode document screenshots into dense representations for retrieval. To evaluate our method, we first craft the dataset of Wiki-SS, a 1.3M Wikipedia web page screenshots as the corpus to answer the questions from the Natural Questions dataset. In such a text-intensive document retrieval setting, DSE shows competitive effectiveness compared to other text retrieval methods relying on parsing. For example, DSE outperforms BM25 by 17 points in top-1 retrieval accuracy. Additionally, in a mixed-modality task of slide retrieval, DSE significantly outperforms OCR text retrieval methods by over 15 points in nDCG@10. These experiments show that DSE is an effective document retrieval paradigm for diverse types of documents. Model checkpoints, code, and Wiki-SS collection will be released.
PDF111February 8, 2026