Optimisation de la Génération Augmentée par Récupération : Analyse de l'Impact des Hyperparamètres sur la Performance et l'Efficacité
Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency
May 13, 2025
Auteurs: Adel Ammar, Anis Koubaa, Omer Nacar, Wadii Boulila
cs.AI
Résumé
Les grands modèles de langage atteignent des performances élevées sur les tâches, mais produisent souvent des hallucinations ou s'appuient sur des connaissances obsolètes. La génération augmentée par recherche (RAG) comble ces lacunes en couplant la génération avec une recherche externe. Nous analysons comment les hyperparamètres influencent la vitesse et la qualité dans les systèmes RAG, en couvrant les bases de données vectorielles Chroma et Faiss, les politiques de découpage, le réordonnancement par cross-encoder, et la température, et nous évaluons six métriques : la fidélité, la justesse de la réponse, la pertinence de la réponse, la précision du contexte, le rappel du contexte, et la similarité des réponses. Chroma traite les requêtes 13 % plus rapidement, tandis que Faiss offre une précision de récupération plus élevée, révélant un compromis clair entre vitesse et précision. Le découpage naïf à longueur fixe avec de petites fenêtres et un chevauchement minimal surpasse la segmentation sémantique tout en restant l'option la plus rapide. Le réordonnancement apporte des gains modestes en qualité de récupération mais augmente le temps d'exécution d'un facteur d'environ 5, son utilité dépend donc des contraintes de latence. Ces résultats aident les praticiens à équilibrer le coût computationnel et la précision lors du réglage des systèmes RAG pour obtenir des réponses transparentes et à jour. Enfin, nous réévaluons les configurations optimales avec un workflow RAG correctif et montrons que leurs avantages persistent lorsque le modèle peut demander itérativement des preuves supplémentaires. Nous obtenons une précision du contexte quasi parfaite (99 %), ce qui démontre que les systèmes RAG peuvent atteindre une précision de récupération extrêmement élevée avec la bonne combinaison d'hyperparamètres, avec des implications significatives pour les applications où la qualité de récupération impacte directement la performance des tâches en aval, comme le support aux décisions cliniques dans le domaine de la santé.
English
Large language models achieve high task performance yet often hallucinate or
rely on outdated knowledge. Retrieval-augmented generation (RAG) addresses
these gaps by coupling generation with external search. We analyse how
hyperparameters influence speed and quality in RAG systems, covering Chroma and
Faiss vector stores, chunking policies, cross-encoder re-ranking, and
temperature, and we evaluate six metrics: faithfulness, answer correctness,
answer relevancy, context precision, context recall, and answer similarity.
Chroma processes queries 13% faster, whereas Faiss yields higher retrieval
precision, revealing a clear speed-accuracy trade-off. Naive fixed-length
chunking with small windows and minimal overlap outperforms semantic
segmentation while remaining the quickest option. Re-ranking provides modest
gains in retrieval quality yet increases runtime by roughly a factor of 5, so
its usefulness depends on latency constraints. These results help practitioners
balance computational cost and accuracy when tuning RAG systems for
transparent, up-to-date responses. Finally, we re-evaluate the top
configurations with a corrective RAG workflow and show that their advantages
persist when the model can iteratively request additional evidence. We obtain a
near-perfect context precision (99%), which demonstrates that RAG systems can
achieve extremely high retrieval accuracy with the right combination of
hyperparameters, with significant implications for applications where retrieval
quality directly impacts downstream task performance, such as clinical decision
support in healthcare.Summary
AI-Generated Summary