ChatPaper.aiChatPaper

복잡한 검색 작업에서 정보 검색 모델의 벤치마킹

Benchmarking Information Retrieval Models on Complex Retrieval Tasks

September 8, 2025
저자: Julian Killingback, Hamed Zamani
cs.AI

초록

대규모 언어 모델(LLM)은 텍스트 기반 작업에 있어 놀랍고 다재다능한 도구로, 이전에는 상상할 수 없었던 수많은 응용 프로그램을 가능하게 했습니다. 반면, 검색 모델은 아직까지 그러한 수준의 범용 모델이 등장하지 못했습니다. 이러한 목표를 달성하기 위해서는 검색 모델이 자연어로 구성된 여러 부분, 제약 조건 또는 요구 사항을 포함하는 복잡한 검색 작업을 수행할 수 있어야 합니다. 이러한 작업은 기존의 대부분의 평가 데이터셋에서 사용되는 단순한 단일 측면 쿼리에서 자연스럽게 진화한 형태입니다. 복잡한 쿼리는 사람들이 검색 시스템이 더 구체적이고 종종 야심 찬 정보 요청을 처리할 것을 기대함에 따라 자연스럽게 발생하며, 이는 LLM 기반 정보 시스템을 사용하는 방식에서도 확인할 수 있습니다. 검색 모델이 복잡한 검색 작업에서의 능력을 확장하려는 요구가 증가함에도 불구하고, 다양한 복잡한 작업에 대한 검색 모델의 능력을 평가할 수 있는 포괄적인 자원은 제한적입니다. 존재하는 몇몇 자원도 범위가 제한적이고 종종 현실적인 설정이 부족하여 복잡한 실제 검색 작업에서 검색 모델의 진정한 능력을 파악하기 어렵습니다. 이러한 단점을 해결하고 차세대 검색 모델의 혁신을 촉진하기 위해, 우리는 다양한 현실적인 복잡한 검색 작업 세트를 구성하고 대표적인 최신 검색 모델들을 벤치마크했습니다. 또한, LLM 기반 쿼리 확장 및 재작성이 검색 품질에 미치는 영향을 탐구했습니다. 우리의 결과는 가장 우수한 모델조차도 모든 작업에서 평균 nDCG@10이 0.346, R@100이 0.587에 불과한 높은 품질의 검색 결과를 생성하는 데 어려움을 겪는 것을 보여줍니다. LLM 증강은 약한 모델에는 도움이 될 수 있지만, 가장 강력한 모델은 모든 재작성 기법에서 모든 지표에서 성능이 감소했습니다.
English
Large language models (LLMs) are incredible and versatile tools for text-based tasks that have enabled countless, previously unimaginable, applications. Retrieval models, in contrast, have not yet seen such capable general-purpose models emerge. To achieve this goal, retrieval models must be able to perform complex retrieval tasks, where queries contain multiple parts, constraints, or requirements in natural language. These tasks represent a natural progression from the simple, single-aspect queries that are used in the vast majority of existing, commonly used evaluation sets. Complex queries naturally arise as people expect search systems to handle more specific and often ambitious information requests, as is demonstrated by how people use LLM-based information systems. Despite the growing desire for retrieval models to expand their capabilities in complex retrieval tasks, there exist limited resources to assess the ability of retrieval models on a comprehensive set of diverse complex tasks. The few resources that do exist feature a limited scope and often lack realistic settings making it hard to know the true capabilities of retrieval models on complex real-world retrieval tasks. To address this shortcoming and spur innovation in next-generation retrieval models, we construct a diverse and realistic set of complex retrieval tasks and benchmark a representative set of state-of-the-art retrieval models. Additionally, we explore the impact of LLM-based query expansion and rewriting on retrieval quality. Our results show that even the best models struggle to produce high-quality retrieval results with the highest average nDCG@10 of only 0.346 and R@100 of only 0.587 across all tasks. Although LLM augmentation can help weaker models, the strongest model has decreased performance across all metrics with all rewriting techniques.
PDF32September 10, 2025