Optimisation de la Génération Augmentée par Récupération : Analyse de l'Impact des Hyperparamètres sur la Performance et l'Efficacité

Résumé

Les grands modèles de langage atteignent des performances élevées sur les tâches, mais produisent souvent des hallucinations ou s'appuient sur des connaissances obsolètes. La génération augmentée par recherche (RAG) comble ces lacunes en couplant la génération avec une recherche externe. Nous analysons comment les hyperparamètres influencent la vitesse et la qualité dans les systèmes RAG, en couvrant les bases de données vectorielles Chroma et Faiss, les politiques de découpage, le réordonnancement par cross-encoder, et la température, et nous évaluons six métriques : la fidélité, la justesse de la réponse, la pertinence de la réponse, la précision du contexte, le rappel du contexte, et la similarité des réponses. Chroma traite les requêtes 13 % plus rapidement, tandis que Faiss offre une précision de récupération plus élevée, révélant un compromis clair entre vitesse et précision. Le découpage naïf à longueur fixe avec de petites fenêtres et un chevauchement minimal surpasse la segmentation sémantique tout en restant l'option la plus rapide. Le réordonnancement apporte des gains modestes en qualité de récupération mais augmente le temps d'exécution d'un facteur d'environ 5, son utilité dépend donc des contraintes de latence. Ces résultats aident les praticiens à équilibrer le coût computationnel et la précision lors du réglage des systèmes RAG pour obtenir des réponses transparentes et à jour. Enfin, nous réévaluons les configurations optimales avec un workflow RAG correctif et montrons que leurs avantages persistent lorsque le modèle peut demander itérativement des preuves supplémentaires. Nous obtenons une précision du contexte quasi parfaite (99 %), ce qui démontre que les systèmes RAG peuvent atteindre une précision de récupération extrêmement élevée avec la bonne combinaison d'hyperparamètres, avec des implications significatives pour les applications où la qualité de récupération impacte directement la performance des tâches en aval, comme le support aux décisions cliniques dans le domaine de la santé.

English

Large language models achieve high task performance yet often hallucinate or rely on outdated knowledge. Retrieval-augmented generation (RAG) addresses these gaps by coupling generation with external search. We analyse how hyperparameters influence speed and quality in RAG systems, covering Chroma and Faiss vector stores, chunking policies, cross-encoder re-ranking, and temperature, and we evaluate six metrics: faithfulness, answer correctness, answer relevancy, context precision, context recall, and answer similarity. Chroma processes queries 13% faster, whereas Faiss yields higher retrieval precision, revealing a clear speed-accuracy trade-off. Naive fixed-length chunking with small windows and minimal overlap outperforms semantic segmentation while remaining the quickest option. Re-ranking provides modest gains in retrieval quality yet increases runtime by roughly a factor of 5, so its usefulness depends on latency constraints. These results help practitioners balance computational cost and accuracy when tuning RAG systems for transparent, up-to-date responses. Finally, we re-evaluate the top configurations with a corrective RAG workflow and show that their advantages persist when the model can iteratively request additional evidence. We obtain a near-perfect context precision (99%), which demonstrates that RAG systems can achieve extremely high retrieval accuracy with the right combination of hyperparameters, with significant implications for applications where retrieval quality directly impacts downstream task performance, such as clinical decision support in healthcare.

Optimisation de la Génération Augmentée par Récupération : Analyse de l'Impact des Hyperparamètres sur la Performance et l'Efficacité

Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency

Résumé

Support