Reranker focalizzato sulla query e consapevole della memoria per l'elaborazione di contesti lunghi

Abstract

Basandoci sull'analisi esistente delle teste di recupero nei grandi modelli linguistici, proponiamo un framework alternativo di reranking che addestra i modelli a stimare la rilevanza passaggio-query utilizzando i punteggi di attenzione di teste selezionate. Questo approccio fornisce una soluzione di tipo listwise che sfrutta le informazioni olistiche all'interno dell'intera lista di candidati durante il ranking. Allo stesso tempo, produce naturalmente punteggi di rilevanza continui, consentendo l'addestramento su dataset di retrieval arbitrari senza richiedere supervisione tramite scale Likert. Il nostro framework è leggero ed efficace, richiedendo solo modelli di piccole dimensioni (ad esempio, 4 miliardi di parametri) per ottenere prestazioni solide. Esperimenti estensivi dimostrano che il nostro metodo supera i reranker pointwise e listwise allo stato dell'arte esistenti in molteplici domini, inclusi Wikipedia e dataset narrativi lunghi. Stabilisce inoltre un nuovo stato dell'arte sul benchmark LoCoMo che valuta le capacità di comprensione del dialogo e utilizzo della memoria. Dimostriamo inoltre che il nostro framework supporta estensioni flessibili. Ad esempio, l'arricchimento dei passaggi candidati con informazioni contestuali migliora ulteriormente l'accuratezza del ranking, mentre l'addestramento di teste di attenzione dagli strati intermedi migliora l'efficienza senza sacrificare le prestazioni.

English

Built upon the existing analysis of retrieval heads in large language models, we propose an alternative reranking framework that trains models to estimate passage-query relevance using the attention scores of selected heads. This approach provides a listwise solution that leverages holistic information within the entire candidate shortlist during ranking. At the same time, it naturally produces continuous relevance scores, enabling training on arbitrary retrieval datasets without requiring Likert-scale supervision. Our framework is lightweight and effective, requiring only small-scale models (e.g., 4B parameters) to achieve strong performance. Extensive experiments demonstrate that our method outperforms existing state-of-the-art pointwise and listwise rerankers across multiple domains, including Wikipedia and long narrative datasets. It further establishes a new state-of-the-art on the LoCoMo benchmark that assesses the capabilities of dialogue understanding and memory usage. We further demonstrate that our framework supports flexible extensions. For example, augmenting candidate passages with contextual information further improves ranking accuracy, while training attention heads from middle layers enhances efficiency without sacrificing performance.

Reranker focalizzato sulla query e consapevole della memoria per l'elaborazione di contesti lunghi

Query-focused and Memory-aware Reranker for Long Context Processing

Abstract

Support