Масштабируемое ранжирование в контексте с использованием генеративных моделей
Scalable In-context Ranking with Generative Models
October 6, 2025
Авторы: Nilesh Gupta, Chong You, Srinadh Bhojanapalli, Sanjiv Kumar, Inderjit Dhillon, Felix Yu
cs.AI
Аннотация
Контекстное ранжирование (In-context Ranking, ICR) — это новая парадигма в области информационного поиска (Information Retrieval, IR), которая использует контекстное понимание больших языковых моделей (LLM), напрямую включая описание задачи, кандидатные документы и запрос во входной промт модели, поручая LLM определить релевантные документы. Хотя этот подход эффективен, его производительность становится значительной проблемой, особенно при увеличении списка кандидатов из-за квадратичного или суперлинейного масштабирования операции внимания (attention) с длиной контекста. В связи с этим данная работа сначала выявляет внутренние и пригодные для использования структуры в механизме внимания LLM, дообученных для ICR: (1) разреженность между блоками документов: внимание плотное внутри каждого блока документа, но разреженное между разными документами в контексте; и (2) релевантность блока документа запросу: оценки внимания от определенных токенов запроса к блоку документа в средних слоях сильно коррелируют с фактической релевантностью этого документа. Вдохновленные этими наблюдениями, мы представляем BlockRank (блочное контекстное ранжирование) — новый метод, который адаптирует операцию внимания в LLM, (а) архитектурно обеспечивая наблюдаемую разреженность между блоками документов, снижая сложность внимания с квадратичной до линейной без потери производительности, и (б) оптимизируя релевантность блока документа запросу для действительно релевантных документов в процессе дообучения с использованием дополнительного контрастного целевого обучения, улучшая поиск в механизме внимания. Эксперименты на наборах данных BEIR, MSMarco и NQ с моделью Mistral-7B показывают, что FLARE Mistral соответствует или превосходит существующие SOTA ранкеры, работающие со списками, и базовые модели с контролируемым дообучением, при этом значительно более эффективен на этапе вывода (в 4,7 раза для 100 документов MSMarco в контексте) и масштабируется для длинных контекстов, обрабатывая около 500 документов в контексте (примерно 100K длины контекста) за секунду, предлагая масштабируемое и эффективное решение для ICR.
English
In-context Ranking (ICR) is an emerging paradigm for Information Retrieval
(IR), which leverages contextual understanding of LLMs by directly
incorporating the task description, candidate documents, and the query into the
model's input prompt and tasking the LLM to identify relevant document(s).
While it is effective, efficiency is a significant challenge in this paradigm,
especially as the candidate list grows due to quadratic/super-linear scaling of
attention operation with context length. To this end, this paper first
identifies inherent and exploitable structures in the attention of LLMs
finetuned for ICR: (1) inter-document block sparsity: attention is dense within
each document block but sparse across different documents in the context; and
(2) query-document block relevance: the attention scores from certain query
tokens to a document block in middle layers strongly correlate with that
document's actual relevance. Motivated by these observations, we introduce
BlockRank (Blockwise In-context Ranking), a novel method that adapts the
attention operation in an LLM by (a) architecturally enforcing the observed
inter-document block sparsity, reducing attention complexity from quadratic to
linear without loss in performance, and (b) optimizing query-document block
relevance for true relevant documents during fine-tuning using an auxiliary
contrastive training objective, improving retrieval in attention. Experiments
on BEIR, MSMarco and NQ with Mistral-7B demonstrate that FLARE Mistral matches
or outperforms existing SOTA listwise rankers and controlled fine-tuned
baseline while being significantly more efficient at inference (4.7x for 100
MSMarco documents in context) and scaling gracefully to long-context
shortlists, around 500 documents in-context (approximately 100K context length)
within a second, presenting a scalable and effective solution for ICR.