ChatPaper.aiChatPaper

Optimalisatie van Retrieval-Augmented Generation: Analyse van de Impact van Hyperparameters op Prestaties en Efficiëntie

Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency

May 13, 2025
Auteurs: Adel Ammar, Anis Koubaa, Omer Nacar, Wadii Boulila
cs.AI

Samenvatting

Grote taalmodelen bereiken een hoge taakprestatie, maar hallucineren vaak of vertrouwen op verouderde kennis. Retrieval-augmented generation (RAG) lost deze tekortkomingen op door generatie te combineren met externe zoekopdrachten. We analyseren hoe hyperparameters snelheid en kwaliteit beïnvloeden in RAG-systemen, waarbij we Chroma- en Faiss-vectorstores, chunkingbeleid, cross-encoder herrangschikking en temperatuur behandelen, en we evalueren zes metrieken: geloofwaardigheid, antwoordcorrectheid, antwoordrelevantie, contextprecisie, contextherinnering en antwoordgelijkenis. Chroma verwerkt queries 13% sneller, terwijl Faiss een hogere retrievaliditeit oplevert, wat een duidelijke snelheid-nauwkeurigheid afweging blootlegt. Naïeve chunking met vaste lengte en kleine vensters met minimale overlap presteert beter dan semantische segmentatie en blijft de snelste optie. Herrangschikking biedt bescheiden verbeteringen in retrievaliditeit, maar verhoogt de looptijd met ongeveer een factor 5, dus het nut ervan hangt af van latentiebeperkingen. Deze resultaten helpen beoefenaars bij het afwegen van rekencapaciteit en nauwkeurigheid bij het afstemmen van RAG-systemen voor transparante, actuele reacties. Tot slot her-evalueren we de topconfiguraties met een corrigerend RAG-werkproces en tonen we aan dat hun voordelen standhouden wanneer het model iteratief aanvullend bewijs kan aanvragen. We behalen een bijna perfecte contextprecisie (99%), wat aantoont dat RAG-systemen extreem hoge retrievaliditeit kunnen bereiken met de juiste combinatie van hyperparameters, met significante implicaties voor toepassingen waar retrievaliditeit direct van invloed is op downstream taakprestaties, zoals klinische beslissingsondersteuning in de gezondheidszorg.
English
Large language models achieve high task performance yet often hallucinate or rely on outdated knowledge. Retrieval-augmented generation (RAG) addresses these gaps by coupling generation with external search. We analyse how hyperparameters influence speed and quality in RAG systems, covering Chroma and Faiss vector stores, chunking policies, cross-encoder re-ranking, and temperature, and we evaluate six metrics: faithfulness, answer correctness, answer relevancy, context precision, context recall, and answer similarity. Chroma processes queries 13% faster, whereas Faiss yields higher retrieval precision, revealing a clear speed-accuracy trade-off. Naive fixed-length chunking with small windows and minimal overlap outperforms semantic segmentation while remaining the quickest option. Re-ranking provides modest gains in retrieval quality yet increases runtime by roughly a factor of 5, so its usefulness depends on latency constraints. These results help practitioners balance computational cost and accuracy when tuning RAG systems for transparent, up-to-date responses. Finally, we re-evaluate the top configurations with a corrective RAG workflow and show that their advantages persist when the model can iteratively request additional evidence. We obtain a near-perfect context precision (99%), which demonstrates that RAG systems can achieve extremely high retrieval accuracy with the right combination of hyperparameters, with significant implications for applications where retrieval quality directly impacts downstream task performance, such as clinical decision support in healthcare.

Summary

AI-Generated Summary

PDF32May 14, 2025