ChatPaper.aiChatPaper

Una historia de confianza y precisión: Modelos de lenguaje base vs. instructivos en sistemas RAG

A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems

June 21, 2024
Autores: Florin Cuconasu, Giovanni Trappolini, Nicola Tonellotto, Fabrizio Silvestri
cs.AI

Resumen

La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) representa un avance significativo en la inteligencia artificial al combinar una fase de recuperación con una fase generativa, donde esta última suele estar impulsada por modelos de lenguaje de gran escala (LLMs). Las prácticas comunes actuales en RAG implican el uso de LLMs "instruidos", que se ajustan mediante entrenamiento supervisado para mejorar su capacidad de seguir instrucciones y se alinean con las preferencias humanas utilizando técnicas de vanguardia. Contrario a la creencia popular, nuestro estudio demuestra que los modelos base superan a sus contrapartes instruidas en tareas de RAG en un 20% en promedio bajo nuestras configuraciones experimentales. Este hallazgo desafía las suposiciones predominantes sobre la superioridad de los LLMs instruidos en aplicaciones de RAG. Investigaciones adicionales revelan una situación más matizada, cuestionando aspectos fundamentales de RAG y sugiriendo la necesidad de discusiones más amplias sobre el tema; o, como diría Fromm, "Rara vez basta una mirada a las estadísticas para comprender el significado de las cifras".
English
Retrieval Augmented Generation (RAG) represents a significant advancement in artificial intelligence combining a retrieval phase with a generative phase, with the latter typically being powered by large language models (LLMs). The current common practices in RAG involve using "instructed" LLMs, which are fine-tuned with supervised training to enhance their ability to follow instructions and are aligned with human preferences using state-of-the-art techniques. Contrary to popular belief, our study demonstrates that base models outperform their instructed counterparts in RAG tasks by 20% on average under our experimental settings. This finding challenges the prevailing assumptions about the superiority of instructed LLMs in RAG applications. Further investigations reveal a more nuanced situation, questioning fundamental aspects of RAG and suggesting the need for broader discussions on the topic; or, as Fromm would have it, "Seldom is a glance at the statistics enough to understand the meaning of the figures".

Summary

AI-Generated Summary

PDF71November 29, 2024