ChatPaper.aiChatPaper

Unificação da Recuperação Multimodal via Incorporação de Capturas de Tela de Documentos

Unifying Multimodal Retrieval via Document Screenshot Embedding

June 17, 2024
Autores: Xueguang Ma, Sheng-Chieh Lin, Minghan Li, Wenhu Chen, Jimmy Lin
cs.AI

Resumo

No mundo real, os documentos são organizados em diferentes formatos e diversas modalidades. Os pipelines tradicionais de recuperação exigem técnicas personalizadas de análise de documentos e módulos de extração de conteúdo para preparar a entrada para indexação. Esse processo é tedioso, propenso a erros e resulta em perda de informação. Para isso, propomos o Document Screenshot Embedding (DSE), um novo paradigma de recuperação que trata capturas de tela de documentos como um formato de entrada unificado, que não requer nenhum pré-processamento de extração de conteúdo e preserva todas as informações de um documento (por exemplo, texto, imagem e layout). O DSE aproveita um grande modelo de visão e linguagem para codificar diretamente capturas de tela de documentos em representações densas para recuperação. Para avaliar nosso método, primeiro criamos o conjunto de dados Wiki-SS, um corpus de 1,3 milhão de capturas de tela de páginas da Wikipedia, para responder às perguntas do conjunto de dados Natural Questions. Nesse cenário de recuperação de documentos intensivos em texto, o DSE mostra eficácia competitiva em comparação com outros métodos de recuperação de texto que dependem de análise. Por exemplo, o DSE supera o BM25 em 17 pontos na precisão de recuperação top-1. Além disso, em uma tarefa de recuperação de slides com modalidade mista, o DSE supera significativamente os métodos de recuperação de texto OCR em mais de 15 pontos no nDCG@10. Esses experimentos mostram que o DSE é um paradigma eficaz de recuperação de documentos para diversos tipos de documentos. Os checkpoints do modelo, o código e a coleção Wiki-SS serão disponibilizados.
English
In the real world, documents are organized in different formats and varied modalities. Traditional retrieval pipelines require tailored document parsing techniques and content extraction modules to prepare input for indexing. This process is tedious, prone to errors, and has information loss. To this end, we propose Document Screenshot Embedding} (DSE), a novel retrieval paradigm that regards document screenshots as a unified input format, which does not require any content extraction preprocess and preserves all the information in a document (e.g., text, image and layout). DSE leverages a large vision-language model to directly encode document screenshots into dense representations for retrieval. To evaluate our method, we first craft the dataset of Wiki-SS, a 1.3M Wikipedia web page screenshots as the corpus to answer the questions from the Natural Questions dataset. In such a text-intensive document retrieval setting, DSE shows competitive effectiveness compared to other text retrieval methods relying on parsing. For example, DSE outperforms BM25 by 17 points in top-1 retrieval accuracy. Additionally, in a mixed-modality task of slide retrieval, DSE significantly outperforms OCR text retrieval methods by over 15 points in nDCG@10. These experiments show that DSE is an effective document retrieval paradigm for diverse types of documents. Model checkpoints, code, and Wiki-SS collection will be released.
PDF101December 6, 2024