Optimisation fine du récupérateur multi-tâches pour un RAG spécifique au domaine et efficace.
Multi-task retriever fine-tuning for domain-specific and efficient RAG
January 8, 2025
Auteurs: Patrice Béchard, Orlando Marquez Ayala
cs.AI
Résumé
La Génération Améliorée par Récupération (RAG) est devenue omniprésente lors du déploiement des Grands Modèles de Langage (LLM), car elle peut résoudre des limitations typiques telles que la génération d'informations hallucinées ou obsolètes. Cependant, lors de la création d'applications RAG dans le monde réel, des problèmes pratiques surviennent. Premièrement, les informations récupérées sont généralement spécifiques à un domaine. Comme il est coûteux en termes de calcul de peaufiner les LLM, il est plus réalisable de peaufiner le récupérateur pour améliorer la qualité des données incluses dans l'entrée du LLM. Deuxièmement, à mesure que davantage d'applications sont déployées dans le même système du monde réel, il n'est pas possible de se permettre de déployer des récupérateurs séparés. De plus, ces applications RAG récupèrent normalement différents types de données. Notre solution consiste à peaufiner de manière instructive un petit encodeur de récupération sur une variété de tâches spécifiques à un domaine pour nous permettre de déployer un encodeur qui peut servir à de nombreux cas d'utilisation, permettant ainsi d'obtenir un faible coût, une extensibilité et une rapidité. Nous montrons comment cet encodeur se généralise à des paramètres hors domaine ainsi qu'à une tâche de récupération inconnue sur des cas d'utilisation d'entreprise du monde réel.
English
Retrieval-Augmented Generation (RAG) has become ubiquitous when deploying
Large Language Models (LLMs), as it can address typical limitations such as
generating hallucinated or outdated information. However, when building
real-world RAG applications, practical issues arise. First, the retrieved
information is generally domain-specific. Since it is computationally expensive
to fine-tune LLMs, it is more feasible to fine-tune the retriever to improve
the quality of the data included in the LLM input. Second, as more applications
are deployed in the same real-world system, one cannot afford to deploy
separate retrievers. Moreover, these RAG applications normally retrieve
different kinds of data. Our solution is to instruction fine-tune a small
retriever encoder on a variety of domain-specific tasks to allow us to deploy
one encoder that can serve many use cases, thereby achieving low-cost,
scalability, and speed. We show how this encoder generalizes to out-of-domain
settings as well as to an unseen retrieval task on real-world enterprise use
cases.Summary
AI-Generated Summary