RAPTOR: Processamento Abstrativo Recursivo para Recuperação Organizada em Árvore

Resumo

Modelos de linguagem aumentados por recuperação podem se adaptar melhor a mudanças no estado do mundo e incorporar conhecimento de cauda longa. No entanto, a maioria dos métodos existentes recupera apenas trechos curtos e contíguos de um corpus de recuperação, limitando a compreensão holística do contexto geral do documento. Introduzimos a abordagem inovadora de incorporar, agrupar e resumir recursivamente trechos de texto, construindo uma árvore com diferentes níveis de sumarização de baixo para cima. No momento da inferência, nosso modelo RAPTOR recupera informações dessa árvore, integrando dados de documentos extensos em diferentes níveis de abstração. Experimentos controlados mostram que a recuperação com resumos recursivos oferece melhorias significativas em relação aos modelos de linguagem aumentados por recuperação tradicionais em várias tarefas. Em tarefas de questionamento e resposta que envolvem raciocínio complexo e de múltiplas etapas, demonstramos resultados de ponta; por exemplo, ao acoplar a recuperação do RAPTOR com o uso do GPT-4, podemos melhorar o melhor desempenho no benchmark QuALITY em 20% em termos de precisão absoluta.

English

Retrieval-augmented language models can better adapt to changes in world state and incorporate long-tail knowledge. However, most existing methods retrieve only short contiguous chunks from a retrieval corpus, limiting holistic understanding of the overall document context. We introduce the novel approach of recursively embedding, clustering, and summarizing chunks of text, constructing a tree with differing levels of summarization from the bottom up. At inference time, our RAPTOR model retrieves from this tree, integrating information across lengthy documents at different levels of abstraction. Controlled experiments show that retrieval with recursive summaries offers significant improvements over traditional retrieval-augmented LMs on several tasks. On question-answering tasks that involve complex, multi-step reasoning, we show state-of-the-art results; for example, by coupling RAPTOR retrieval with the use of GPT-4, we can improve the best performance on the QuALITY benchmark by 20% in absolute accuracy.

RAPTOR: Processamento Abstrativo Recursivo para Recuperação Organizada em Árvore

RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval

Resumo

Support