Classificazione Scalabile in Contesto con Modelli Generativi
Scalable In-context Ranking with Generative Models
October 6, 2025
Autori: Nilesh Gupta, Chong You, Srinadh Bhojanapalli, Sanjiv Kumar, Inderjit Dhillon, Felix Yu
cs.AI
Abstract
Il Ranking in Contesto (In-context Ranking, ICR) è un paradigma emergente nel campo del Recupero delle Informazioni (Information Retrieval, IR), che sfrutta la comprensione contestuale dei Modelli Linguistici di Grande Dimensione (Large Language Models, LLMs) incorporando direttamente la descrizione del task, i documenti candidati e la query nel prompt di input del modello, affidando all'LLM il compito di identificare i documenti rilevanti. Sebbene sia efficace, l'efficienza rappresenta una sfida significativa in questo paradigma, specialmente quando la lista dei candidati cresce a causa della scala quadratica/super-lineare dell'operazione di attenzione rispetto alla lunghezza del contesto. A tal fine, questo articolo identifica innanzitutto strutture intrinseche e sfruttabili nell'attenzione degli LLMs ottimizzati per l'ICR: (1) sparsità inter-documento a blocchi: l'attenzione è densa all'interno di ciascun blocco di documento ma sparsa tra diversi documenti nel contesto; e (2) rilevanza blocco query-documento: i punteggi di attenzione da determinati token della query a un blocco di documento negli strati intermedi sono fortemente correlati con la rilevanza effettiva di quel documento. Motivati da queste osservazioni, introduciamo BlockRank (Blockwise In-context Ranking), un metodo innovativo che adatta l'operazione di attenzione in un LLM (a) imponendo architetturalmente la sparsità inter-documento a blocchi osservata, riducendo la complessità dell'attenzione da quadratica a lineare senza perdita di prestazioni, e (b) ottimizzando la rilevanza blocco query-documento per i documenti veramente rilevanti durante la fase di fine-tuning utilizzando un obiettivo di addestramento contrastivo ausiliario, migliorando il recupero nell'attenzione. Esperimenti su BEIR, MSMarco e NQ con Mistral-7B dimostrano che FLARE Mistral eguaglia o supera i ranker listwise SOTA esistenti e la baseline di fine-tuning controllato, risultando significativamente più efficiente nell'inferenza (4.7x per 100 documenti MSMarco in contesto) e scalando in modo elegante su shortlist a contesto lungo, circa 500 documenti in contesto (circa 100K di lunghezza del contesto) in meno di un secondo, presentando una soluzione scalabile ed efficace per l'ICR.
English
In-context Ranking (ICR) is an emerging paradigm for Information Retrieval
(IR), which leverages contextual understanding of LLMs by directly
incorporating the task description, candidate documents, and the query into the
model's input prompt and tasking the LLM to identify relevant document(s).
While it is effective, efficiency is a significant challenge in this paradigm,
especially as the candidate list grows due to quadratic/super-linear scaling of
attention operation with context length. To this end, this paper first
identifies inherent and exploitable structures in the attention of LLMs
finetuned for ICR: (1) inter-document block sparsity: attention is dense within
each document block but sparse across different documents in the context; and
(2) query-document block relevance: the attention scores from certain query
tokens to a document block in middle layers strongly correlate with that
document's actual relevance. Motivated by these observations, we introduce
BlockRank (Blockwise In-context Ranking), a novel method that adapts the
attention operation in an LLM by (a) architecturally enforcing the observed
inter-document block sparsity, reducing attention complexity from quadratic to
linear without loss in performance, and (b) optimizing query-document block
relevance for true relevant documents during fine-tuning using an auxiliary
contrastive training objective, improving retrieval in attention. Experiments
on BEIR, MSMarco and NQ with Mistral-7B demonstrate that FLARE Mistral matches
or outperforms existing SOTA listwise rankers and controlled fine-tuned
baseline while being significantly more efficient at inference (4.7x for 100
MSMarco documents in context) and scaling gracefully to long-context
shortlists, around 500 documents in-context (approximately 100K context length)
within a second, presenting a scalable and effective solution for ICR.