Ne Recherchez Pas, Naviguez : Distiller les Connaissances de l'Entreprise en Compétences d'Agent Navigables pour le QA et le RAG
Don't Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG
April 16, 2026
Auteurs: Yiqun Sun, Pengfei Wei, Lawrence B. Hsieh
cs.AI
Résumé
La Génération Augmentée par Récupération (RAG) ancre les réponses des LLM dans des preuves externes, mais traite le modèle comme un simple consommateur de résultats de recherche : il ne voit jamais comment le corpus est organisé ni ce qu'il n'a pas encore récupéré, ce qui limite sa capacité à revenir en arrière ou à combiner des preuves éparses. Nous présentons Corpus2Skill, qui distille un corpus documentaire en un répertoire hiérarchique de compétences hors ligne et permet à un agent LLM de le parcourir au moment du service. Le pipeline de compilation regroupe itérativement les documents, génère des résumés rédigés par le LLM à chaque niveau, et matérialise le résultat sous forme d'une arborescence de fichiers de compétences navigables. Au moment du service, l'agent reçoit une vue d'ensemble du corpus, explore les branches thématiques via des résumés de plus en plus fins, et récupère les documents complets par identifiant. Parce que la hiérarchie est explicitement visible, l'agent peut raisonner sur l'endroit où chercher, revenir en arrière depuis des voies infructueuses et combiner des preuves entre les branches. Sur WixQA, un benchmark d'assistance client en entreprise pour RAG, Corpus2Skill surpasse les bases de référence que sont la récupération dense, RAPTOR et le RAG agentique sur toutes les métriques de qualité.
English
Retrieval-Augmented Generation (RAG) grounds LLM responses in external evidence but treats the model as a passive consumer of search results: it never sees how the corpus is organized or what it has not yet retrieved, limiting its ability to backtrack or combine scattered evidence. We present Corpus2Skill, which distills a document corpus into a hierarchical skill directory offline and lets an LLM agent navigate it at serve time. The compilation pipeline iteratively clusters documents, generates LLM-written summaries at each level, and materializes the result as a tree of navigable skill files. At serve time, the agent receives a bird's-eye view of the corpus, drills into topic branches via progressively finer summaries, and retrieves full documents by ID. Because the hierarchy is explicitly visible, the agent can reason about where to look, backtrack from unproductive paths, and combine evidence across branches. On WixQA, an enterprise customer-support benchmark for RAG, Corpus2Skill outperforms dense retrieval, RAPTOR, and agentic RAG baselines across all quality metrics.