RARe: コンテキスト例を用いた検索強化型検索
RARe: Retrieval Augmented Retrieval with In-Context Examples
October 26, 2024
著者: Atula Tejaswi, Yoonsang Lee, Sujay Sanghavi, Eunsol Choi
cs.AI
要旨
我々は、デコーダーのみを使用する言語モデル(LLM)で広く使用されているコンテキスト内の例が、検索タスクにおける埋め込みモデルのパフォーマンスを向上させるかどうかを調査します。LLMとは異なり、クエリ-ドキュメントのペアをターゲットクエリに単純に前置するだけでは、推論時にはうまく機能しません。私たちは、リトリーバーがコンテキスト内の例を使用できるようにするための簡単なアプローチ、RAReを紹介します。RAReは、ターゲットクエリと意味的に類似したクエリを持つコンテキスト内の例を使用して事前学習済みモデルをファインチューニングします。これは、様々なベースアーキテクチャ(つまり、デコーダーのみを使用する言語モデル、リトリーバーモデル)に適用でき、様々なオープンドメイン検索データセット(BeIR、RAR-b)において最大+2.72%のnDCGのパフォーマンス向上を一貫して達成します。特に、RAReは、コンテキスト内の例を使用しないモデルと比較して、ドメイン外での汎化能力が強いことがわかり、LLMにおけるコンテキスト内学習で見られるものと類似しています。さらに、コンテキスト内の例の拡張の設計選択に関する分析を提供し、この分野での将来の研究の基盤を築きます。
English
We investigate whether in-context examples, widely used in decoder-only
language models (LLMs), can improve embedding model performance in retrieval
tasks. Unlike in LLMs, naively prepending in-context examples (query-document
pairs) to the target query at inference time does not work out of the box. We
introduce a simple approach to enable retrievers to use in-context examples.
Our approach, RARe, finetunes a pre-trained model with in-context examples
whose query is semantically similar to the target query. This can be applied to
adapt various base architectures (i.e., decoder-only language models, retriever
models) and consistently achieves performance gains of up to +2.72% nDCG across
various open-domain retrieval datasets (BeIR, RAR-b). In particular, we find
RARe exhibits stronger out-of-domain generalization compared to models using
queries without in-context examples, similar to what is seen for in-context
learning in LLMs. We further provide analysis on the design choices of
in-context example augmentation and lay the foundation for future work in this
space.Summary
AI-Generated Summary