Classificazione Scalabile in Contesto con Modelli Generativi

Abstract

Il Ranking in Contesto (In-context Ranking, ICR) è un paradigma emergente nel campo del Recupero delle Informazioni (Information Retrieval, IR), che sfrutta la comprensione contestuale dei Modelli Linguistici di Grande Dimensione (Large Language Models, LLMs) incorporando direttamente la descrizione del task, i documenti candidati e la query nel prompt di input del modello, affidando all'LLM il compito di identificare i documenti rilevanti. Sebbene sia efficace, l'efficienza rappresenta una sfida significativa in questo paradigma, specialmente quando la lista dei candidati cresce a causa della scala quadratica/super-lineare dell'operazione di attenzione rispetto alla lunghezza del contesto. A tal fine, questo articolo identifica innanzitutto strutture intrinseche e sfruttabili nell'attenzione degli LLMs ottimizzati per l'ICR: (1) sparsità inter-documento a blocchi: l'attenzione è densa all'interno di ciascun blocco di documento ma sparsa tra diversi documenti nel contesto; e (2) rilevanza blocco query-documento: i punteggi di attenzione da determinati token della query a un blocco di documento negli strati intermedi sono fortemente correlati con la rilevanza effettiva di quel documento. Motivati da queste osservazioni, introduciamo BlockRank (Blockwise In-context Ranking), un metodo innovativo che adatta l'operazione di attenzione in un LLM (a) imponendo architetturalmente la sparsità inter-documento a blocchi osservata, riducendo la complessità dell'attenzione da quadratica a lineare senza perdita di prestazioni, e (b) ottimizzando la rilevanza blocco query-documento per i documenti veramente rilevanti durante la fase di fine-tuning utilizzando un obiettivo di addestramento contrastivo ausiliario, migliorando il recupero nell'attenzione. Esperimenti su BEIR, MSMarco e NQ con Mistral-7B dimostrano che FLARE Mistral eguaglia o supera i ranker listwise SOTA esistenti e la baseline di fine-tuning controllato, risultando significativamente più efficiente nell'inferenza (4.7x per 100 documenti MSMarco in contesto) e scalando in modo elegante su shortlist a contesto lungo, circa 500 documenti in contesto (circa 100K di lunghezza del contesto) in meno di un secondo, presentando una soluzione scalabile ed efficace per l'ICR.

English

In-context Ranking (ICR) is an emerging paradigm for Information Retrieval (IR), which leverages contextual understanding of LLMs by directly incorporating the task description, candidate documents, and the query into the model's input prompt and tasking the LLM to identify relevant document(s). While it is effective, efficiency is a significant challenge in this paradigm, especially as the candidate list grows due to quadratic/super-linear scaling of attention operation with context length. To this end, this paper first identifies inherent and exploitable structures in the attention of LLMs finetuned for ICR: (1) inter-document block sparsity: attention is dense within each document block but sparse across different documents in the context; and (2) query-document block relevance: the attention scores from certain query tokens to a document block in middle layers strongly correlate with that document's actual relevance. Motivated by these observations, we introduce BlockRank (Blockwise In-context Ranking), a novel method that adapts the attention operation in an LLM by (a) architecturally enforcing the observed inter-document block sparsity, reducing attention complexity from quadratic to linear without loss in performance, and (b) optimizing query-document block relevance for true relevant documents during fine-tuning using an auxiliary contrastive training objective, improving retrieval in attention. Experiments on BEIR, MSMarco and NQ with Mistral-7B demonstrate that FLARE Mistral matches or outperforms existing SOTA listwise rankers and controlled fine-tuned baseline while being significantly more efficient at inference (4.7x for 100 MSMarco documents in context) and scaling gracefully to long-context shortlists, around 500 documents in-context (approximately 100K context length) within a second, presenting a scalable and effective solution for ICR.

Classificazione Scalabile in Contesto con Modelli Generativi

Scalable In-context Ranking with Generative Models

Abstract

Support