Los modelos más fuertes NO son mejores maestros para el ajuste de la instrucción.
Stronger Models are NOT Stronger Teachers for Instruction Tuning
November 11, 2024
Autores: Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Radha Poovendran
cs.AI
Resumen
La optimización de instrucciones ha sido ampliamente adoptada para asegurar que los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) sigan las instrucciones de los usuarios de manera efectiva. Las capacidades resultantes de seguir instrucciones de los LLMs dependen en gran medida de los conjuntos de datos de instrucciones utilizados para la optimización. Recientemente, han surgido conjuntos de datos de instrucciones sintéticas como una solución económicamente viable para proporcionar a los LLMs instrucciones diversas y de alta calidad. Sin embargo, los enfoques existentes suelen asumir que los modelos más grandes o más fuertes son mejores maestros para la optimización de instrucciones, y por lo tanto simplemente adoptan estos modelos como generadores de respuestas a las instrucciones sintéticas. En este artículo, desafiamos esta suposición comúnmente adoptada. Nuestros extensos experimentos con cinco modelos base y veinte generadores de respuestas revelan que los modelos más grandes y más fuertes no son necesariamente mejores maestros para los modelos más pequeños. Nos referimos a este fenómeno como la Paradoja de los Modelos Más Grandes. Observamos que las métricas existentes no pueden predecir con precisión la efectividad de los generadores de respuestas ya que ignoran la compatibilidad entre los maestros y los modelos base que se están ajustando finamente. Por lo tanto, desarrollamos una métrica novedosa, denominada Recompensa Ajustada por Compatibilidad (CAR, por sus siglas en inglés) para medir la efectividad de los generadores de respuestas. Nuestros experimentos con cinco modelos base demuestran que CAR supera casi todos los valores de referencia.
English
Instruction tuning has been widely adopted to ensure large language models
(LLMs) follow user instructions effectively. The resulting
instruction-following capabilities of LLMs heavily rely on the instruction
datasets used for tuning. Recently, synthetic instruction datasets have emerged
as an economically viable solution to provide LLMs diverse and high-quality
instructions. However, existing approaches typically assume that larger or
stronger models are stronger teachers for instruction tuning, and hence simply
adopt these models as response generators to the synthetic instructions. In
this paper, we challenge this commonly-adopted assumption. Our extensive
experiments across five base models and twenty response generators reveal that
larger and stronger models are not necessarily stronger teachers of smaller
models. We refer to this phenomenon as the Larger Models' Paradox. We observe
that existing metrics cannot precisely predict the effectiveness of response
generators since they ignore the compatibility between teachers and base models
being fine-tuned. We thus develop a novel metric, named as
Compatibility-Adjusted Reward (CAR) to measure the effectiveness of response
generators. Our experiments across five base models demonstrate that CAR
outperforms almost all baselines.Summary
AI-Generated Summary