ChatPaper.aiChatPaper

Optimierung von Retrieval-Augmented Generation: Analyse der Auswirkungen von Hyperparametern auf Leistung und Effizienz

Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency

May 13, 2025
Autoren: Adel Ammar, Anis Koubaa, Omer Nacar, Wadii Boulila
cs.AI

Zusammenfassung

Große Sprachmodelle erreichen eine hohe Aufgabenleistung, halluzinieren jedoch oft oder verlassen sich auf veraltetes Wissen. Retrieval-augmented Generation (RAG) adressiert diese Lücken, indem sie die Generierung mit einer externen Suche kombiniert. Wir analysieren, wie Hyperparameter Geschwindigkeit und Qualität in RAG-Systemen beeinflussen, und behandeln dabei Chroma- und Faiss-Vektorspeicher, Chunking-Strategien, Cross-Encoder-Re-Ranking sowie die Temperatur. Wir bewerten sechs Metriken: Treue, Antwortkorrektheit, Antwortrelevanz, Kontextpräzision, Kontextrückruf und Antwortähnlichkeit. Chroma verarbeitet Anfragen 13 % schneller, während Faiss eine höhere Retrieval-Präzision liefert, was einen klaren Geschwindigkeits-Genauigkeits-Kompromiss offenbart. Naives Chunking mit fester Länge, kleinen Fenstern und minimaler Überlappung übertrifft die semantische Segmentierung und bleibt dabei die schnellste Option. Re-Ranking bietet moderate Verbesserungen in der Retrieval-Qualität, erhöht jedoch die Laufzeit um etwa den Faktor 5, sodass sein Nutzen von Latenzanforderungen abhängt. Diese Ergebnisse helfen Praktikern, Rechenkosten und Genauigkeit beim Feinabstimmen von RAG-Systemen für transparente und aktuelle Antworten auszubalancieren. Schließlich bewerten wir die besten Konfigurationen mit einem korrigierenden RAG-Workflow neu und zeigen, dass ihre Vorteile bestehen bleiben, wenn das Modell iterativ zusätzliche Beweise anfordern kann. Wir erreichen eine nahezu perfekte Kontextpräzision (99 %), was demonstriert, dass RAG-Systeme mit der richtigen Kombination von Hyperparametern eine extrem hohe Retrieval-Genauigkeit erreichen können. Dies hat erhebliche Auswirkungen auf Anwendungen, bei denen die Retrieval-Qualität die Leistung nachgelagerter Aufgaben direkt beeinflusst, wie beispielsweise die klinische Entscheidungsunterstützung im Gesundheitswesen.
English
Large language models achieve high task performance yet often hallucinate or rely on outdated knowledge. Retrieval-augmented generation (RAG) addresses these gaps by coupling generation with external search. We analyse how hyperparameters influence speed and quality in RAG systems, covering Chroma and Faiss vector stores, chunking policies, cross-encoder re-ranking, and temperature, and we evaluate six metrics: faithfulness, answer correctness, answer relevancy, context precision, context recall, and answer similarity. Chroma processes queries 13% faster, whereas Faiss yields higher retrieval precision, revealing a clear speed-accuracy trade-off. Naive fixed-length chunking with small windows and minimal overlap outperforms semantic segmentation while remaining the quickest option. Re-ranking provides modest gains in retrieval quality yet increases runtime by roughly a factor of 5, so its usefulness depends on latency constraints. These results help practitioners balance computational cost and accuracy when tuning RAG systems for transparent, up-to-date responses. Finally, we re-evaluate the top configurations with a corrective RAG workflow and show that their advantages persist when the model can iteratively request additional evidence. We obtain a near-perfect context precision (99%), which demonstrates that RAG systems can achieve extremely high retrieval accuracy with the right combination of hyperparameters, with significant implications for applications where retrieval quality directly impacts downstream task performance, such as clinical decision support in healthcare.
PDF42May 14, 2025