マルチモーダル検索の統一化:ドキュメントスクリーンショット埋め込みによるアプローチ
Unifying Multimodal Retrieval via Document Screenshot Embedding
June 17, 2024
著者: Xueguang Ma, Sheng-Chieh Lin, Minghan Li, Wenhu Chen, Jimmy Lin
cs.AI
要旨
現実世界では、文書はさまざまなフォーマットとモダリティで整理されています。従来の検索パイプラインでは、インデックス作成のための入力を準備するために、文書解析技術やコンテンツ抽出モジュールを個別に設計する必要がありました。このプロセスは煩雑で、エラーが発生しやすく、情報の損失も生じます。この問題を解決するため、我々は「Document Screenshot Embedding(DSE)」という新しい検索パラダイムを提案します。DSEは、文書のスクリーンショットを統一された入力フォーマットとして扱い、コンテンツ抽出の前処理を必要とせず、文書内のすべての情報(テキスト、画像、レイアウトなど)を保持します。DSEは、大規模な視覚-言語モデルを活用して、文書スクリーンショットを直接的に密な表現にエンコードし、検索を行います。
本手法を評価するため、まずWiki-SSデータセットを作成しました。これは、Natural Questionsデータセットの質問に答えるためのコーパスとして、130万件のWikipediaウェブページのスクリーンショットを収集したものです。このようなテキスト中心の文書検索設定において、DSEは解析に依存する他のテキスト検索手法と比較して競争力のある効果を示しました。例えば、DSEはトップ1検索精度においてBM25を17ポイント上回りました。さらに、スライド検索という混合モダリティタスクでは、DSEはOCRテキスト検索手法をnDCG@10において15ポイント以上大きく上回りました。これらの実験結果から、DSEが多様なタイプの文書に対して有効な検索パラダイムであることが示されました。モデルのチェックポイント、コード、およびWiki-SSコレクションは公開される予定です。
English
In the real world, documents are organized in different formats and varied
modalities. Traditional retrieval pipelines require tailored document parsing
techniques and content extraction modules to prepare input for indexing. This
process is tedious, prone to errors, and has information loss. To this end, we
propose Document Screenshot Embedding} (DSE), a novel retrieval paradigm that
regards document screenshots as a unified input format, which does not require
any content extraction preprocess and preserves all the information in a
document (e.g., text, image and layout). DSE leverages a large vision-language
model to directly encode document screenshots into dense representations for
retrieval. To evaluate our method, we first craft the dataset of Wiki-SS, a
1.3M Wikipedia web page screenshots as the corpus to answer the questions from
the Natural Questions dataset. In such a text-intensive document retrieval
setting, DSE shows competitive effectiveness compared to other text retrieval
methods relying on parsing. For example, DSE outperforms BM25 by 17 points in
top-1 retrieval accuracy. Additionally, in a mixed-modality task of slide
retrieval, DSE significantly outperforms OCR text retrieval methods by over 15
points in nDCG@10. These experiments show that DSE is an effective document
retrieval paradigm for diverse types of documents. Model checkpoints, code, and
Wiki-SS collection will be released.Summary
AI-Generated Summary