Otimização de Geração Aumentada por Recuperação: Análise do Impacto de Hiperparâmetros no Desempenho e Eficiência
Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency
May 13, 2025
Autores: Adel Ammar, Anis Koubaa, Omer Nacar, Wadii Boulila
cs.AI
Resumo
Modelos de linguagem de grande escala alcançam alto desempenho em tarefas, mas frequentemente alucinam ou dependem de conhecimentos desatualizados. A geração aumentada por recuperação (RAG) aborda essas lacunas ao acoplar a geração com buscas externas. Analisamos como hiperparâmetros influenciam a velocidade e a qualidade em sistemas RAG, abrangendo armazenamentos de vetores Chroma e Faiss, políticas de segmentação, reordenação por cross-encoder e temperatura, e avaliamos seis métricas: fidelidade, correção da resposta, relevância da resposta, precisão do contexto, recall do contexto e similaridade da resposta. O Chroma processa consultas 13% mais rápido, enquanto o Faiss oferece maior precisão de recuperação, revelando uma clara compensação entre velocidade e precisão. A segmentação ingênua de comprimento fixo com janelas pequenas e sobreposição mínima supera a segmentação semântica, mantendo-se como a opção mais rápida. A reordenação proporciona ganhos modestos na qualidade de recuperação, mas aumenta o tempo de execução em aproximadamente 5 vezes, portanto, sua utilidade depende das restrições de latência. Esses resultados ajudam os profissionais a equilibrar custo computacional e precisão ao ajustar sistemas RAG para respostas transparentes e atualizadas. Por fim, reavaliamos as principais configurações com um fluxo de trabalho RAG corretivo e mostramos que suas vantagens persistem quando o modelo pode solicitar evidências adicionais de forma iterativa. Obtemos uma precisão de contexto quase perfeita (99%), o que demonstra que sistemas RAG podem alcançar uma precisão de recuperação extremamente alta com a combinação certa de hiperparâmetros, com implicações significativas para aplicações onde a qualidade da recuperação impacta diretamente o desempenho de tarefas subsequentes, como suporte à decisão clínica na área da saúde.
English
Large language models achieve high task performance yet often hallucinate or
rely on outdated knowledge. Retrieval-augmented generation (RAG) addresses
these gaps by coupling generation with external search. We analyse how
hyperparameters influence speed and quality in RAG systems, covering Chroma and
Faiss vector stores, chunking policies, cross-encoder re-ranking, and
temperature, and we evaluate six metrics: faithfulness, answer correctness,
answer relevancy, context precision, context recall, and answer similarity.
Chroma processes queries 13% faster, whereas Faiss yields higher retrieval
precision, revealing a clear speed-accuracy trade-off. Naive fixed-length
chunking with small windows and minimal overlap outperforms semantic
segmentation while remaining the quickest option. Re-ranking provides modest
gains in retrieval quality yet increases runtime by roughly a factor of 5, so
its usefulness depends on latency constraints. These results help practitioners
balance computational cost and accuracy when tuning RAG systems for
transparent, up-to-date responses. Finally, we re-evaluate the top
configurations with a corrective RAG workflow and show that their advantages
persist when the model can iteratively request additional evidence. We obtain a
near-perfect context precision (99%), which demonstrates that RAG systems can
achieve extremely high retrieval accuracy with the right combination of
hyperparameters, with significant implications for applications where retrieval
quality directly impacts downstream task performance, such as clinical decision
support in healthcare.