Optimización de la Generación Aumentada por Recuperación: Análisis del Impacto de los Hiperparámetros en el Rendimiento y la Eficiencia
Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency
May 13, 2025
Autores: Adel Ammar, Anis Koubaa, Omer Nacar, Wadii Boulila
cs.AI
Resumen
Los modelos de lenguaje de gran escala logran un alto rendimiento en tareas, pero a menudo alucinan o dependen de conocimientos desactualizados. La generación aumentada por recuperación (RAG, por sus siglas en inglés) aborda estas limitaciones al combinar la generación con búsquedas externas. Analizamos cómo los hiperparámetros influyen en la velocidad y la calidad en sistemas RAG, cubriendo almacenes de vectores como Chroma y Faiss, políticas de segmentación, reordenamiento con codificadores cruzados y temperatura, y evaluamos seis métricas: fidelidad, corrección de respuestas, relevancia de respuestas, precisión del contexto, recuperación del contexto y similitud de respuestas. Chroma procesa consultas un 13% más rápido, mientras que Faiss ofrece mayor precisión en la recuperación, revelando una clara compensación entre velocidad y precisión. La segmentación de longitud fija con ventanas pequeñas y superposición mínima supera a la segmentación semántica y sigue siendo la opción más rápida. El reordenamiento proporciona mejoras modestas en la calidad de la recuperación, pero aumenta el tiempo de ejecución aproximadamente en un factor de 5, por lo que su utilidad depende de las restricciones de latencia. Estos resultados ayudan a los profesionales a equilibrar el costo computacional y la precisión al ajustar sistemas RAG para obtener respuestas transparentes y actualizadas. Finalmente, reevaluamos las mejores configuraciones con un flujo de trabajo RAG correctivo y demostramos que sus ventajas persisten cuando el modelo puede solicitar evidencia adicional de manera iterativa. Obtenemos una precisión del contexto casi perfecta (99%), lo que demuestra que los sistemas RAG pueden alcanzar una precisión de recuperación extremadamente alta con la combinación adecuada de hiperparámetros, con implicaciones significativas para aplicaciones donde la calidad de la recuperación impacta directamente en el rendimiento de tareas posteriores, como el apoyo a decisiones clínicas en el ámbito de la salud.
English
Large language models achieve high task performance yet often hallucinate or
rely on outdated knowledge. Retrieval-augmented generation (RAG) addresses
these gaps by coupling generation with external search. We analyse how
hyperparameters influence speed and quality in RAG systems, covering Chroma and
Faiss vector stores, chunking policies, cross-encoder re-ranking, and
temperature, and we evaluate six metrics: faithfulness, answer correctness,
answer relevancy, context precision, context recall, and answer similarity.
Chroma processes queries 13% faster, whereas Faiss yields higher retrieval
precision, revealing a clear speed-accuracy trade-off. Naive fixed-length
chunking with small windows and minimal overlap outperforms semantic
segmentation while remaining the quickest option. Re-ranking provides modest
gains in retrieval quality yet increases runtime by roughly a factor of 5, so
its usefulness depends on latency constraints. These results help practitioners
balance computational cost and accuracy when tuning RAG systems for
transparent, up-to-date responses. Finally, we re-evaluate the top
configurations with a corrective RAG workflow and show that their advantages
persist when the model can iteratively request additional evidence. We obtain a
near-perfect context precision (99%), which demonstrates that RAG systems can
achieve extremely high retrieval accuracy with the right combination of
hyperparameters, with significant implications for applications where retrieval
quality directly impacts downstream task performance, such as clinical decision
support in healthcare.