ChatPaper.aiChatPaper

Classement contextuel évolutif avec des modèles génératifs

Scalable In-context Ranking with Generative Models

October 6, 2025
papers.authors: Nilesh Gupta, Chong You, Srinadh Bhojanapalli, Sanjiv Kumar, Inderjit Dhillon, Felix Yu
cs.AI

papers.abstract

Le classement en contexte (In-context Ranking, ICR) est un paradigme émergent en recherche d'information (Information Retrieval, IR) qui exploite la compréhension contextuelle des modèles de langage de grande taille (LLMs) en intégrant directement la description de la tâche, les documents candidats et la requête dans l'invite d'entrée du modèle, tout en chargeant le LLM d'identifier les documents pertinents. Bien qu'efficace, l'efficience constitue un défi majeur dans ce paradigme, notamment à mesure que la liste des candidats s'allonge en raison de l'échelle quadratique/super-linéaire des opérations d'attention avec la longueur du contexte. À cet égard, cet article identifie d'abord des structures inhérentes et exploitables dans l'attention des LLMs affinés pour l'ICR : (1) la parcimonie inter-bloc des documents : l'attention est dense au sein de chaque bloc de document mais parcimonieuse entre les différents documents du contexte ; et (2) la pertinence des blocs requête-document : les scores d'attention de certains tokens de la requête vers un bloc de document dans les couches intermédiaires corrèlent fortement avec la pertinence réelle de ce document. Motivés par ces observations, nous introduisons BlockRank (Classement en contexte par blocs), une méthode novatrice qui adapte l'opération d'attention dans un LLM en (a) imposant architecturalement la parcimonie inter-bloc observée, réduisant ainsi la complexité de l'attention de quadratique à linéaire sans perte de performance, et (b) en optimisant la pertinence des blocs requête-document pour les documents réellement pertinents lors de l'affinage grâce à un objectif de formation contrastive auxiliaire, améliorant ainsi la récupération dans l'attention. Les expériences sur BEIR, MSMarco et NQ avec Mistral-7B démontrent que FLARE Mistral égale ou surpasse les classificateurs par liste existants de l'état de l'art (SOTA) et la ligne de base affinée de manière contrôlée, tout en étant significativement plus efficace lors de l'inférence (4,7x pour 100 documents MSMarco en contexte) et en s'adaptant avec grâce à des listes courtes de contexte long, environ 500 documents en contexte (environ 100K de longueur de contexte) en moins d'une seconde, offrant ainsi une solution scalable et efficace pour l'ICR.
English
In-context Ranking (ICR) is an emerging paradigm for Information Retrieval (IR), which leverages contextual understanding of LLMs by directly incorporating the task description, candidate documents, and the query into the model's input prompt and tasking the LLM to identify relevant document(s). While it is effective, efficiency is a significant challenge in this paradigm, especially as the candidate list grows due to quadratic/super-linear scaling of attention operation with context length. To this end, this paper first identifies inherent and exploitable structures in the attention of LLMs finetuned for ICR: (1) inter-document block sparsity: attention is dense within each document block but sparse across different documents in the context; and (2) query-document block relevance: the attention scores from certain query tokens to a document block in middle layers strongly correlate with that document's actual relevance. Motivated by these observations, we introduce BlockRank (Blockwise In-context Ranking), a novel method that adapts the attention operation in an LLM by (a) architecturally enforcing the observed inter-document block sparsity, reducing attention complexity from quadratic to linear without loss in performance, and (b) optimizing query-document block relevance for true relevant documents during fine-tuning using an auxiliary contrastive training objective, improving retrieval in attention. Experiments on BEIR, MSMarco and NQ with Mistral-7B demonstrate that FLARE Mistral matches or outperforms existing SOTA listwise rankers and controlled fine-tuned baseline while being significantly more efficient at inference (4.7x for 100 MSMarco documents in context) and scaling gracefully to long-context shortlists, around 500 documents in-context (approximately 100K context length) within a second, presenting a scalable and effective solution for ICR.
PDF74October 8, 2025