RAFT : Adaptation des modèles de langage au RAG spécifique à un domaine
RAFT: Adapting Language Model to Domain Specific RAG
March 15, 2024
Auteurs: Tianjun Zhang, Shishir G. Patil, Naman Jain, Sheng Shen, Matei Zaharia, Ion Stoica, Joseph E. Gonzalez
cs.AI
Résumé
Le pré-entraînement de grands modèles de langage (LLM) sur de vastes corpus de données textuelles est désormais un paradigme standard. Lors de l'utilisation de ces LLM pour de nombreuses applications en aval, il est courant d'intégrer de nouvelles connaissances (par exemple, des informations critiques en temps réel ou des connaissances spécifiques à un domaine privé) dans le modèle pré-entraîné, soit par le biais de prompts basés sur RAG, soit par un ajustement fin. Cependant, la méthodologie optimale pour que le modèle acquière ces nouvelles connaissances reste une question ouverte. Dans cet article, nous présentons le Retrieval Augmented FineTuning (RAFT), une méthode d'entraînement qui améliore la capacité du modèle à répondre à des questions dans des contextes "open-book" spécifiques à un domaine. Dans RAFT, étant donné une question et un ensemble de documents récupérés, nous entraînons le modèle à ignorer les documents qui n'aident pas à répondre à la question, que nous appelons documents distracteurs. RAFT y parvient en citant textuellement la séquence pertinente du document qui aide à répondre à la question. Cela, couplé avec les réponses de type chaîne de raisonnement de RAFT, améliore la capacité du modèle à raisonner. Dans le cadre de RAG spécifique à un domaine, RAFT améliore systématiquement les performances du modèle sur les ensembles de données PubMed, HotpotQA et Gorilla, proposant ainsi une méthode post-entraînement pour améliorer les LLM pré-entraînés dans le contexte de RAG spécifique à un domaine. Le code et la démonstration de RAFT sont disponibles en open-source sur github.com/ShishirPatil/gorilla.
English
Pretraining Large Language Models (LLMs) on large corpora of textual data is
now a standard paradigm. When using these LLMs for many downstream
applications, it is common to additionally bake in new knowledge (e.g.,
time-critical news, or private domain knowledge) into the pretrained model
either through RAG-based-prompting, or fine-tuning. However, the optimal
methodology for the model to gain such new knowledge remains an open question.
In this paper, we present Retrieval Augmented FineTuning (RAFT), a training
recipe that improves the model's ability to answer questions in a "open-book"
in-domain settings. In RAFT, given a question, and a set of retrieved
documents, we train the model to ignore those documents that don't help in
answering the question, which we call, distractor documents. RAFT accomplishes
this by citing verbatim the right sequence from the relevant document that
would help answer the question. This coupled with RAFT's chain-of-thought-style
response helps improve the model's ability to reason. In domain-specific RAG,
RAFT consistently improves the model's performance across PubMed, HotpotQA, and
Gorilla datasets, presenting a post-training recipe to improve pre-trained LLMs
to in-domain RAG. RAFT's code and demo are open-sourced at
github.com/ShishirPatil/gorilla.Summary
AI-Generated Summary