문서 스크린샷 임베딩을 통한 멀티모달 검색 통합
Unifying Multimodal Retrieval via Document Screenshot Embedding
June 17, 2024
저자: Xueguang Ma, Sheng-Chieh Lin, Minghan Li, Wenhu Chen, Jimmy Lin
cs.AI
초록
실제 세계에서 문서는 다양한 형식과 양식으로 구성됩니다. 전통적인 검색 파이프라인은 인덱싱을 위한 입력을 준비하기 위해 맞춤형 문서 파싱 기술과 콘텐츠 추출 모듈을 필요로 합니다. 이 과정은 번거롭고 오류가 발생하기 쉬우며 정보 손실이 발생합니다. 이를 위해 우리는 문서 스크린샷을 통일된 입력 형식으로 간주하는 새로운 검색 패러다임인 Document Screenshot Embedding (DSE)를 제안합니다. DSE는 콘텐츠 추출 전처리가 필요 없으며 문서의 모든 정보(예: 텍스트, 이미지, 레이아웃)를 보존합니다. DSE는 대규모 시각-언어 모델을 활용하여 문서 스크린샷을 직접 밀집 표현으로 인코딩하여 검색에 사용합니다. 우리의 방법을 평가하기 위해 먼저 130만 개의 Wikipedia 웹 페이지 스크린샷으로 구성된 Wiki-SS 데이터셋을 구축하여 Natural Questions 데이터셋의 질문에 답변하는 데 사용했습니다. 이러한 텍스트 중심 문서 검색 설정에서 DSE는 파싱에 의존하는 다른 텍스트 검색 방법과 비교해 경쟁력 있는 효과를 보였습니다. 예를 들어, DSE는 BM25보다 상위 1위 검색 정확도에서 17점 더 높은 성능을 보였습니다. 또한, 슬라이드 검색과 같은 혼합 양식 작업에서 DSE는 OCR 텍스트 검색 방법보다 nDCG@10에서 15점 이상 크게 앞섰습니다. 이러한 실험은 DSE가 다양한 유형의 문서에 효과적인 문서 검색 패러다임임을 보여줍니다. 모델 체크포인트, 코드, 그리고 Wiki-SS 컬렉션은 공개될 예정입니다.
English
In the real world, documents are organized in different formats and varied
modalities. Traditional retrieval pipelines require tailored document parsing
techniques and content extraction modules to prepare input for indexing. This
process is tedious, prone to errors, and has information loss. To this end, we
propose Document Screenshot Embedding} (DSE), a novel retrieval paradigm that
regards document screenshots as a unified input format, which does not require
any content extraction preprocess and preserves all the information in a
document (e.g., text, image and layout). DSE leverages a large vision-language
model to directly encode document screenshots into dense representations for
retrieval. To evaluate our method, we first craft the dataset of Wiki-SS, a
1.3M Wikipedia web page screenshots as the corpus to answer the questions from
the Natural Questions dataset. In such a text-intensive document retrieval
setting, DSE shows competitive effectiveness compared to other text retrieval
methods relying on parsing. For example, DSE outperforms BM25 by 17 points in
top-1 retrieval accuracy. Additionally, in a mixed-modality task of slide
retrieval, DSE significantly outperforms OCR text retrieval methods by over 15
points in nDCG@10. These experiments show that DSE is an effective document
retrieval paradigm for diverse types of documents. Model checkpoints, code, and
Wiki-SS collection will be released.Summary
AI-Generated Summary