RAPTOR: Processamento Abstrativo Recursivo para Recuperação Organizada em Árvore
RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval
January 31, 2024
Autores: Parth Sarthi, Salman Abdullah, Aditi Tuli, Shubh Khanna, Anna Goldie, Christopher D. Manning
cs.AI
Resumo
Modelos de linguagem aumentados por recuperação podem se adaptar melhor a mudanças no estado do mundo e incorporar conhecimento de cauda longa. No entanto, a maioria dos métodos existentes recupera apenas trechos curtos e contíguos de um corpus de recuperação, limitando a compreensão holística do contexto geral do documento. Introduzimos a abordagem inovadora de incorporar, agrupar e resumir recursivamente trechos de texto, construindo uma árvore com diferentes níveis de sumarização de baixo para cima. No momento da inferência, nosso modelo RAPTOR recupera informações dessa árvore, integrando dados de documentos extensos em diferentes níveis de abstração. Experimentos controlados mostram que a recuperação com resumos recursivos oferece melhorias significativas em relação aos modelos de linguagem aumentados por recuperação tradicionais em várias tarefas. Em tarefas de questionamento e resposta que envolvem raciocínio complexo e de múltiplas etapas, demonstramos resultados de ponta; por exemplo, ao acoplar a recuperação do RAPTOR com o uso do GPT-4, podemos melhorar o melhor desempenho no benchmark QuALITY em 20% em termos de precisão absoluta.
English
Retrieval-augmented language models can better adapt to changes in world
state and incorporate long-tail knowledge. However, most existing methods
retrieve only short contiguous chunks from a retrieval corpus, limiting
holistic understanding of the overall document context. We introduce the novel
approach of recursively embedding, clustering, and summarizing chunks of text,
constructing a tree with differing levels of summarization from the bottom up.
At inference time, our RAPTOR model retrieves from this tree, integrating
information across lengthy documents at different levels of abstraction.
Controlled experiments show that retrieval with recursive summaries offers
significant improvements over traditional retrieval-augmented LMs on several
tasks. On question-answering tasks that involve complex, multi-step reasoning,
we show state-of-the-art results; for example, by coupling RAPTOR retrieval
with the use of GPT-4, we can improve the best performance on the QuALITY
benchmark by 20% in absolute accuracy.