Optimización de la Generación Aumentada por Recuperación: Análisis del Impacto de los Hiperparámetros en el Rendimiento y la Eficiencia

Resumen

Los modelos de lenguaje de gran escala logran un alto rendimiento en tareas, pero a menudo alucinan o dependen de conocimientos desactualizados. La generación aumentada por recuperación (RAG, por sus siglas en inglés) aborda estas limitaciones al combinar la generación con búsquedas externas. Analizamos cómo los hiperparámetros influyen en la velocidad y la calidad en sistemas RAG, cubriendo almacenes de vectores como Chroma y Faiss, políticas de segmentación, reordenamiento con codificadores cruzados y temperatura, y evaluamos seis métricas: fidelidad, corrección de respuestas, relevancia de respuestas, precisión del contexto, recuperación del contexto y similitud de respuestas. Chroma procesa consultas un 13% más rápido, mientras que Faiss ofrece mayor precisión en la recuperación, revelando una clara compensación entre velocidad y precisión. La segmentación de longitud fija con ventanas pequeñas y superposición mínima supera a la segmentación semántica y sigue siendo la opción más rápida. El reordenamiento proporciona mejoras modestas en la calidad de la recuperación, pero aumenta el tiempo de ejecución aproximadamente en un factor de 5, por lo que su utilidad depende de las restricciones de latencia. Estos resultados ayudan a los profesionales a equilibrar el costo computacional y la precisión al ajustar sistemas RAG para obtener respuestas transparentes y actualizadas. Finalmente, reevaluamos las mejores configuraciones con un flujo de trabajo RAG correctivo y demostramos que sus ventajas persisten cuando el modelo puede solicitar evidencia adicional de manera iterativa. Obtenemos una precisión del contexto casi perfecta (99%), lo que demuestra que los sistemas RAG pueden alcanzar una precisión de recuperación extremadamente alta con la combinación adecuada de hiperparámetros, con implicaciones significativas para aplicaciones donde la calidad de la recuperación impacta directamente en el rendimiento de tareas posteriores, como el apoyo a decisiones clínicas en el ámbito de la salud.

English

Large language models achieve high task performance yet often hallucinate or rely on outdated knowledge. Retrieval-augmented generation (RAG) addresses these gaps by coupling generation with external search. We analyse how hyperparameters influence speed and quality in RAG systems, covering Chroma and Faiss vector stores, chunking policies, cross-encoder re-ranking, and temperature, and we evaluate six metrics: faithfulness, answer correctness, answer relevancy, context precision, context recall, and answer similarity. Chroma processes queries 13% faster, whereas Faiss yields higher retrieval precision, revealing a clear speed-accuracy trade-off. Naive fixed-length chunking with small windows and minimal overlap outperforms semantic segmentation while remaining the quickest option. Re-ranking provides modest gains in retrieval quality yet increases runtime by roughly a factor of 5, so its usefulness depends on latency constraints. These results help practitioners balance computational cost and accuracy when tuning RAG systems for transparent, up-to-date responses. Finally, we re-evaluate the top configurations with a corrective RAG workflow and show that their advantages persist when the model can iteratively request additional evidence. We obtain a near-perfect context precision (99%), which demonstrates that RAG systems can achieve extremely high retrieval accuracy with the right combination of hyperparameters, with significant implications for applications where retrieval quality directly impacts downstream task performance, such as clinical decision support in healthcare.

Optimización de la Generación Aumentada por Recuperación: Análisis del Impacto de los Hiperparámetros en el Rendimiento y la Eficiencia

Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency

Resumen

Support