RAPTOR : Traitement Abstrait Récursif pour la Récupération Organisée en Arborescence
RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval
January 31, 2024
Auteurs: Parth Sarthi, Salman Abdullah, Aditi Tuli, Shubh Khanna, Anna Goldie, Christopher D. Manning
cs.AI
Résumé
Les modèles de langage augmentés par recherche peuvent mieux s'adapter aux changements de l'état du monde et intégrer des connaissances de longue traîne. Cependant, la plupart des méthodes existantes ne récupèrent que de courts segments contigus à partir d'un corpus de recherche, limitant ainsi la compréhension holistique du contexte global du document. Nous introduisons une approche novatrice consistant à encoder de manière récursive, à regrouper et à résumer des segments de texte, construisant ainsi un arbre avec différents niveaux de résumé de bas en haut. Au moment de l'inférence, notre modèle RAPTOR effectue des recherches dans cet arbre, intégrant des informations à travers des documents longs à différents niveaux d'abstraction. Des expériences contrôlées montrent que la recherche avec des résumés récursifs offre des améliorations significatives par rapport aux modèles de langage traditionnels augmentés par recherche sur plusieurs tâches. Sur des tâches de question-réponse impliquant un raisonnement complexe et multi-étapes, nous obtenons des résultats de pointe ; par exemple, en couplant la recherche RAPTOR avec l'utilisation de GPT-4, nous pouvons améliorer la meilleure performance sur le benchmark QuALITY de 20 % en précision absolue.
English
Retrieval-augmented language models can better adapt to changes in world
state and incorporate long-tail knowledge. However, most existing methods
retrieve only short contiguous chunks from a retrieval corpus, limiting
holistic understanding of the overall document context. We introduce the novel
approach of recursively embedding, clustering, and summarizing chunks of text,
constructing a tree with differing levels of summarization from the bottom up.
At inference time, our RAPTOR model retrieves from this tree, integrating
information across lengthy documents at different levels of abstraction.
Controlled experiments show that retrieval with recursive summaries offers
significant improvements over traditional retrieval-augmented LMs on several
tasks. On question-answering tasks that involve complex, multi-step reasoning,
we show state-of-the-art results; for example, by coupling RAPTOR retrieval
with the use of GPT-4, we can improve the best performance on the QuALITY
benchmark by 20% in absolute accuracy.