StructRAG : Amélioration du raisonnement intensif en connaissances des LLMs via la structuration hybride de l'information à l'inférence.

papers.abstract

La génération augmentée par récupération (RAG) est un moyen clé d'améliorer efficacement les grands modèles de langage (LLM) dans de nombreuses tâches basées sur la connaissance. Cependant, les méthodes RAG existantes rencontrent des difficultés avec les tâches de raisonnement intensif en connaissances, car les informations utiles nécessaires à ces tâches sont mal réparties. Cette caractéristique rend difficile pour les méthodes RAG existantes d'identifier avec précision les informations clés et d'effectuer un raisonnement global avec une telle augmentation bruyante. Dans cet article, motivés par les théories cognitives selon lesquelles les humains convertissent les informations brutes en diverses connaissances structurées lorsqu'ils abordent des tâches de raisonnement intensif en connaissances, nous proposons un nouveau cadre, StructRAG, qui peut identifier le type de structure optimal pour la tâche en cours, reconstruire les documents originaux dans ce format structuré, et inférer des réponses basées sur la structure résultante. Des expériences approfondies menées sur diverses tâches intensives en connaissances montrent que StructRAG atteint des performances de pointe, se distinguant particulièrement dans des scénarios difficiles, démontrant ainsi son potentiel en tant que solution efficace pour améliorer les LLM dans des applications réelles complexes.

English

Retrieval-augmented generation (RAG) is a key means to effectively enhance large language models (LLMs) in many knowledge-based tasks. However, existing RAG methods struggle with knowledge-intensive reasoning tasks, because useful information required to these tasks are badly scattered. This characteristic makes it difficult for existing RAG methods to accurately identify key information and perform global reasoning with such noisy augmentation. In this paper, motivated by the cognitive theories that humans convert raw information into various structured knowledge when tackling knowledge-intensive reasoning, we proposes a new framework, StructRAG, which can identify the optimal structure type for the task at hand, reconstruct original documents into this structured format, and infer answers based on the resulting structure. Extensive experiments across various knowledge-intensive tasks show that StructRAG achieves state-of-the-art performance, particularly excelling in challenging scenarios, demonstrating its potential as an effective solution for enhancing LLMs in complex real-world applications.

StructRAG : Amélioration du raisonnement intensif en connaissances des LLMs via la structuration hybride de l'information à l'inférence.

StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

papers.abstract

Support