Abfragebezogener und speicherbewusster Reranker für die Verarbeitung langer Kontexte

Zusammenfassung

Aufbauend auf der bestehenden Analyse von Retrieval-Köpfen in großen Sprachmodellen schlagen wir ein alternatives Reranking-Framework vor, das Modelle darauf trainiert, die Relevanz von Passagen und Abfragen anhand der Aufmerksamkeitswerte ausgewählter Köpfe zu schätzen. Dieser Ansatz bietet eine listwise-Lösung, die holistische Informationen innerhalb der gesamten Kandidatenliste während des Rankings nutzt. Gleichzeitig erzeugt er natürlicherweise kontinuierliche Relevanzwerte, was ein Training auf beliebigen Retrieval-Datensätzen ohne Likert-Skalen-Supervision ermöglicht. Unser Framework ist leichtgewichtig und effektiv, benötigt nur kleinere Modelle (z.B. 4B Parameter) und erzielt dennoch hohe Leistung. Umfangreiche Experimente zeigen, dass unsere Methode bestehende state-of-the-art pointwise- und listwise-Reranker in verschiedenen Domänen übertrifft, einschließlich Wikipedia- und langen narrativen Datensätzen. Zudem etabliert sie einen neuen State-of-the-Art auf dem LoCoMo-Benchmark, der Fähigkeiten im Dialogverständnis und Speichernutzung bewertet. Wir zeigen weiter, dass unser Framework flexible Erweiterungen unterstützt. Beispielsweise verbessert die Anreicherung von Kandidatenpassagen mit Kontextinformationen die Ranking-Genauigkeit, während das Training von Aufmerksamkeitsköpfen aus mittleren Schichten die Effizienz steigert, ohne die Leistung zu beeinträchtigen.

English

Built upon the existing analysis of retrieval heads in large language models, we propose an alternative reranking framework that trains models to estimate passage-query relevance using the attention scores of selected heads. This approach provides a listwise solution that leverages holistic information within the entire candidate shortlist during ranking. At the same time, it naturally produces continuous relevance scores, enabling training on arbitrary retrieval datasets without requiring Likert-scale supervision. Our framework is lightweight and effective, requiring only small-scale models (e.g., 4B parameters) to achieve strong performance. Extensive experiments demonstrate that our method outperforms existing state-of-the-art pointwise and listwise rerankers across multiple domains, including Wikipedia and long narrative datasets. It further establishes a new state-of-the-art on the LoCoMo benchmark that assesses the capabilities of dialogue understanding and memory usage. We further demonstrate that our framework supports flexible extensions. For example, augmenting candidate passages with contextual information further improves ranking accuracy, while training attention heads from middle layers enhances efficiency without sacrificing performance.

Abfragebezogener und speicherbewusster Reranker für die Verarbeitung langer Kontexte

Query-focused and Memory-aware Reranker for Long Context Processing

Zusammenfassung

Support