複雑な検索タスクにおける情報検索モデルのベンチマーキング
Benchmarking Information Retrieval Models on Complex Retrieval Tasks
September 8, 2025
著者: Julian Killingback, Hamed Zamani
cs.AI
要旨
大規模言語モデル(LLMs)は、テキストベースのタスクにおいて驚異的で汎用性の高いツールであり、これまで想像もできなかった無数の応用を可能にしてきた。一方、検索モデルについては、そのような汎用的な能力を持つモデルはまだ登場していない。この目標を達成するためには、検索モデルが複雑な検索タスクを実行できる必要がある。これらのタスクでは、クエリが自然言語で複数の部分、制約、または要件を含む。これらのタスクは、既存の一般的に使用されている評価セットで用いられる単純な単一側面のクエリからの自然な進化を表している。複雑なクエリは、人々が検索システムに対してより具体的でしばしば野心的な情報要求を処理することを期待するようになるにつれて自然に発生する。これは、LLMベースの情報システムがどのように使用されているかによって示されている。検索モデルが複雑な検索タスクにおいてその能力を拡大することに対する期待が高まる中、多様な複雑なタスクの包括的なセットにおいて検索モデルの能力を評価するためのリソースは限られている。存在するわずかなリソースも範囲が限定されており、現実的な設定を欠いていることが多く、複雑な現実世界の検索タスクにおける検索モデルの真の能力を知ることは困難である。この欠点を解消し、次世代検索モデルの革新を促進するために、我々は多様で現実的な複雑検索タスクのセットを構築し、代表的な最先端の検索モデルをベンチマークした。さらに、LLMベースのクエリ拡張と書き換えが検索品質に与える影響を探った。我々の結果は、最高のモデルでさえ、すべてのタスクにおいて平均nDCG@10がわずか0.346、R@100が0.587と、高品質な検索結果を生成するのに苦労していることを示している。LLMによる拡張は弱いモデルを助けることができるが、最も強いモデルはすべての書き換え技術においてすべてのメトリクスで性能が低下している。
English
Large language models (LLMs) are incredible and versatile tools for
text-based tasks that have enabled countless, previously unimaginable,
applications. Retrieval models, in contrast, have not yet seen such capable
general-purpose models emerge. To achieve this goal, retrieval models must be
able to perform complex retrieval tasks, where queries contain multiple parts,
constraints, or requirements in natural language. These tasks represent a
natural progression from the simple, single-aspect queries that are used in the
vast majority of existing, commonly used evaluation sets. Complex queries
naturally arise as people expect search systems to handle more specific and
often ambitious information requests, as is demonstrated by how people use
LLM-based information systems. Despite the growing desire for retrieval models
to expand their capabilities in complex retrieval tasks, there exist limited
resources to assess the ability of retrieval models on a comprehensive set of
diverse complex tasks. The few resources that do exist feature a limited scope
and often lack realistic settings making it hard to know the true capabilities
of retrieval models on complex real-world retrieval tasks. To address this
shortcoming and spur innovation in next-generation retrieval models, we
construct a diverse and realistic set of complex retrieval tasks and benchmark
a representative set of state-of-the-art retrieval models. Additionally, we
explore the impact of LLM-based query expansion and rewriting on retrieval
quality. Our results show that even the best models struggle to produce
high-quality retrieval results with the highest average nDCG@10 of only 0.346
and R@100 of only 0.587 across all tasks. Although LLM augmentation can help
weaker models, the strongest model has decreased performance across all metrics
with all rewriting techniques.