Reclassificador com Foco na Consulta e Consciência da Memória para Processamento de Contexto Longo

Resumo

Com base na análise existente sobre cabeças de recuperação em modelos de linguagem de grande porte, propomos uma estrutura alternativa de rerranqueamento que treina modelos para estimar a relevância passagem-consulta utilizando os escores de atenção de cabeças selecionadas. Esta abordagem oferece uma solução *listwise* que aproveita informações holísticas dentro de toda a lista de candidatos durante o ranqueamento. Ao mesmo tempo, produz naturalmente escores de relevância contínuos, permitindo o treinamento em conjuntos de dados de recuperação arbitrários sem exigir supervisão baseada em escalas Likert. Nossa estrutura é leve e eficaz, exigindo apenas modelos de pequena escala (por exemplo, 4B de parâmetros) para alcançar um desempenho sólido. Experimentos extensivos demonstram que nosso método supera os rerranqueadores *pointwise* e *listwise* estado da arte existentes em múltiplos domínios, incluindo Wikipedia e conjuntos de dados de narrativas longas. Ele estabelece ainda um novo estado da arte no benchmark LoCoMo, que avalia as capacidades de compreensão de diálogo e uso de memória. Demonstramos ainda que nossa estrutura suporta extensões flexíveis. Por exemplo, aumentar as passagens candidatas com informações contextuais melhora ainda mais a precisão do ranqueamento, enquanto o treinamento de cabeças de atenção a partir de camadas intermediárias aumenta a eficiência sem sacrificar o desempenho.

English

Built upon the existing analysis of retrieval heads in large language models, we propose an alternative reranking framework that trains models to estimate passage-query relevance using the attention scores of selected heads. This approach provides a listwise solution that leverages holistic information within the entire candidate shortlist during ranking. At the same time, it naturally produces continuous relevance scores, enabling training on arbitrary retrieval datasets without requiring Likert-scale supervision. Our framework is lightweight and effective, requiring only small-scale models (e.g., 4B parameters) to achieve strong performance. Extensive experiments demonstrate that our method outperforms existing state-of-the-art pointwise and listwise rerankers across multiple domains, including Wikipedia and long narrative datasets. It further establishes a new state-of-the-art on the LoCoMo benchmark that assesses the capabilities of dialogue understanding and memory usage. We further demonstrate that our framework supports flexible extensions. For example, augmenting candidate passages with contextual information further improves ranking accuracy, while training attention heads from middle layers enhances efficiency without sacrificing performance.

Reclassificador com Foco na Consulta e Consciência da Memória para Processamento de Contexto Longo

Query-focused and Memory-aware Reranker for Long Context Processing

Resumo

Support