Многозадачная настройка извлекателя для доменно-специфического и эффективного RAG
Multi-task retriever fine-tuning for domain-specific and efficient RAG
January 8, 2025
Авторы: Patrice Béchard, Orlando Marquez Ayala
cs.AI
Аннотация
Поисково-улучшенная генерация (RAG) стала неотъемлемой частью при развертывании больших языковых моделей (LLM), поскольку она способна решить типичные ограничения, такие как генерация галлюцинаций или устаревшей информации. Однако при создании прикладных приложений RAG для реального мира возникают практические проблемы. Во-первых, извлеченная информация обычно специфична для области. Поскольку настройка LLM методом дообучения является вычислительно затратной, более целесообразно дообучить извлекателя для улучшения качества данных, включаемых во вход LLM. Во-вторых, по мере развертывания большего числа приложений в одной и той же системе реального мира невозможно развернуть отдельные извлекатели. Более того, эти приложения RAG обычно извлекают различные типы данных. Нашим решением является инструкционное дообучение небольшого кодировщика извлекателя на различных задачах, специфичных для области, что позволяет нам развернуть один кодировщик, который может обслуживать множество случаев использования, обеспечивая тем самым низкую стоимость, масштабируемость и скорость. Мы показываем, как этот кодировщик обобщается на настройки вне области, а также на невидимую задачу извлечения в реальных предприятиях.
English
Retrieval-Augmented Generation (RAG) has become ubiquitous when deploying
Large Language Models (LLMs), as it can address typical limitations such as
generating hallucinated or outdated information. However, when building
real-world RAG applications, practical issues arise. First, the retrieved
information is generally domain-specific. Since it is computationally expensive
to fine-tune LLMs, it is more feasible to fine-tune the retriever to improve
the quality of the data included in the LLM input. Second, as more applications
are deployed in the same real-world system, one cannot afford to deploy
separate retrievers. Moreover, these RAG applications normally retrieve
different kinds of data. Our solution is to instruction fine-tune a small
retriever encoder on a variety of domain-specific tasks to allow us to deploy
one encoder that can serve many use cases, thereby achieving low-cost,
scalability, and speed. We show how this encoder generalizes to out-of-domain
settings as well as to an unseen retrieval task on real-world enterprise use
cases.Summary
AI-Generated Summary