Los modelos más fuertes NO son mejores maestros para el ajuste de la instrucción.Stronger Models are NOT Stronger Teachers for Instruction Tuning
La optimización de instrucciones ha sido ampliamente adoptada para asegurar que los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) sigan las instrucciones de los usuarios de manera efectiva. Las capacidades resultantes de seguir instrucciones de los LLMs dependen en gran medida de los conjuntos de datos de instrucciones utilizados para la optimización. Recientemente, han surgido conjuntos de datos de instrucciones sintéticas como una solución económicamente viable para proporcionar a los LLMs instrucciones diversas y de alta calidad. Sin embargo, los enfoques existentes suelen asumir que los modelos más grandes o más fuertes son mejores maestros para la optimización de instrucciones, y por lo tanto simplemente adoptan estos modelos como generadores de respuestas a las instrucciones sintéticas. En este artículo, desafiamos esta suposición comúnmente adoptada. Nuestros extensos experimentos con cinco modelos base y veinte generadores de respuestas revelan que los modelos más grandes y más fuertes no son necesariamente mejores maestros para los modelos más pequeños. Nos referimos a este fenómeno como la Paradoja de los Modelos Más Grandes. Observamos que las métricas existentes no pueden predecir con precisión la efectividad de los generadores de respuestas ya que ignoran la compatibilidad entre los maestros y los modelos base que se están ajustando finamente. Por lo tanto, desarrollamos una métrica novedosa, denominada Recompensa Ajustada por Compatibilidad (CAR, por sus siglas en inglés) para medir la efectividad de los generadores de respuestas. Nuestros experimentos con cinco modelos base demuestran que CAR supera casi todos los valores de referencia.