Ottimizzazione della Generazione Aumentata dal Recupero: Analisi dell'Impatto degli Iperparametri su Prestazioni ed Efficienza
Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency
May 13, 2025
Autori: Adel Ammar, Anis Koubaa, Omer Nacar, Wadii Boulila
cs.AI
Abstract
I modelli linguistici di grandi dimensioni raggiungono elevate prestazioni nei compiti, ma spesso producono allucinazioni o si basano su conoscenze obsolete. La generazione aumentata dal recupero (RAG) affronta queste lacune integrando la generazione con una ricerca esterna. Analizziamo come gli iperparametri influenzano velocità e qualità nei sistemi RAG, coprendo gli archivi vettoriali Chroma e Faiss, le politiche di segmentazione, il riordinamento con cross-encoder e la temperatura, e valutiamo sei metriche: fedeltà, correttezza della risposta, rilevanza della risposta, precisione del contesto, richiamo del contesto e somiglianza della risposta. Chroma elabora le query il 13% più velocemente, mentre Faiss offre una maggiore precisione di recupero, rivelando un chiaro compromesso tra velocità e accuratezza. La segmentazione a lunghezza fissa con finestre piccole e sovrapposizione minima supera la segmentazione semantica pur rimanendo l'opzione più veloce. Il riordinamento fornisce modesti miglioramenti nella qualità del recupero ma aumenta il tempo di esecuzione di circa 5 volte, quindi la sua utilità dipende dai vincoli di latenza. Questi risultati aiutano i professionisti a bilanciare costo computazionale e accuratezza quando ottimizzano i sistemi RAG per ottenere risposte trasparenti e aggiornate. Infine, rivalutiamo le configurazioni migliori con un flusso di lavoro RAG correttivo e dimostriamo che i loro vantaggi persistono quando il modello può richiedere iterativamente ulteriori prove. Otteniamo una precisione del contesto quasi perfetta (99%), dimostrando che i sistemi RAG possono raggiungere un'estrema accuratezza di recupero con la giusta combinazione di iperparametri, con implicazioni significative per applicazioni in cui la qualità del recupero influisce direttamente sulle prestazioni dei compiti a valle, come il supporto alle decisioni cliniche in ambito sanitario.
English
Large language models achieve high task performance yet often hallucinate or
rely on outdated knowledge. Retrieval-augmented generation (RAG) addresses
these gaps by coupling generation with external search. We analyse how
hyperparameters influence speed and quality in RAG systems, covering Chroma and
Faiss vector stores, chunking policies, cross-encoder re-ranking, and
temperature, and we evaluate six metrics: faithfulness, answer correctness,
answer relevancy, context precision, context recall, and answer similarity.
Chroma processes queries 13% faster, whereas Faiss yields higher retrieval
precision, revealing a clear speed-accuracy trade-off. Naive fixed-length
chunking with small windows and minimal overlap outperforms semantic
segmentation while remaining the quickest option. Re-ranking provides modest
gains in retrieval quality yet increases runtime by roughly a factor of 5, so
its usefulness depends on latency constraints. These results help practitioners
balance computational cost and accuracy when tuning RAG systems for
transparent, up-to-date responses. Finally, we re-evaluate the top
configurations with a corrective RAG workflow and show that their advantages
persist when the model can iteratively request additional evidence. We obtain a
near-perfect context precision (99%), which demonstrates that RAG systems can
achieve extremely high retrieval accuracy with the right combination of
hyperparameters, with significant implications for applications where retrieval
quality directly impacts downstream task performance, such as clinical decision
support in healthcare.