Оптимизация генерации с усилением поиска: анализ влияния гиперпараметров на производительность и эффективность
Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency
May 13, 2025
Авторы: Adel Ammar, Anis Koubaa, Omer Nacar, Wadii Boulila
cs.AI
Аннотация
Крупные языковые модели демонстрируют высокую производительность в задачах, но часто генерируют недостоверную информацию или опираются на устаревшие данные. Генерация, дополненная поиском (RAG), устраняет эти недостатки, объединяя генерацию с внешним поиском. Мы анализируем, как гиперпараметры влияют на скорость и качество в системах RAG, включая векторные хранилища Chroma и Faiss, стратегии разбиения на фрагменты, повторное ранжирование с использованием кросс-энкодера и параметр температуры, а также оцениваем шесть метрик: достоверность, правильность ответа, релевантность ответа, точность контекста, полноту контекста и сходство ответов. Chroma обрабатывает запросы на 13% быстрее, тогда как Faiss обеспечивает более высокую точность поиска, что выявляет явный компромисс между скоростью и точностью. Наивное разбиение на фрагменты фиксированной длины с небольшими окнами и минимальным перекрытием превосходит семантическую сегментацию, оставаясь самым быстрым вариантом. Повторное ранжирование дает умеренное улучшение качества поиска, но увеличивает время выполнения примерно в 5 раз, поэтому его полезность зависит от ограничений по задержке. Эти результаты помогают специалистам балансировать вычислительные затраты и точность при настройке систем RAG для получения прозрачных и актуальных ответов. Наконец, мы повторно оцениваем лучшие конфигурации с использованием корректирующего рабочего процесса RAG и показываем, что их преимущества сохраняются, когда модель может итеративно запрашивать дополнительные доказательства. Мы достигаем почти идеальной точности контекста (99%), что демонстрирует, что системы RAG могут достигать чрезвычайно высокой точности поиска при правильной комбинации гиперпараметров, что имеет важные последствия для приложений, где качество поиска напрямую влияет на производительность последующих задач, таких как поддержка клинических решений в здравоохранении.
English
Large language models achieve high task performance yet often hallucinate or
rely on outdated knowledge. Retrieval-augmented generation (RAG) addresses
these gaps by coupling generation with external search. We analyse how
hyperparameters influence speed and quality in RAG systems, covering Chroma and
Faiss vector stores, chunking policies, cross-encoder re-ranking, and
temperature, and we evaluate six metrics: faithfulness, answer correctness,
answer relevancy, context precision, context recall, and answer similarity.
Chroma processes queries 13% faster, whereas Faiss yields higher retrieval
precision, revealing a clear speed-accuracy trade-off. Naive fixed-length
chunking with small windows and minimal overlap outperforms semantic
segmentation while remaining the quickest option. Re-ranking provides modest
gains in retrieval quality yet increases runtime by roughly a factor of 5, so
its usefulness depends on latency constraints. These results help practitioners
balance computational cost and accuracy when tuning RAG systems for
transparent, up-to-date responses. Finally, we re-evaluate the top
configurations with a corrective RAG workflow and show that their advantages
persist when the model can iteratively request additional evidence. We obtain a
near-perfect context precision (99%), which demonstrates that RAG systems can
achieve extremely high retrieval accuracy with the right combination of
hyperparameters, with significant implications for applications where retrieval
quality directly impacts downstream task performance, such as clinical decision
support in healthcare.