ChatPaper.aiChatPaper

Los modelos más fuertes NO son mejores maestros para el ajuste de la instrucción.

Stronger Models are NOT Stronger Teachers for Instruction Tuning

November 11, 2024
Autores: Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Radha Poovendran
cs.AI

Resumen

La optimización de instrucciones ha sido ampliamente adoptada para asegurar que los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) sigan las instrucciones de los usuarios de manera efectiva. Las capacidades resultantes de seguir instrucciones de los LLMs dependen en gran medida de los conjuntos de datos de instrucciones utilizados para la optimización. Recientemente, han surgido conjuntos de datos de instrucciones sintéticas como una solución económicamente viable para proporcionar a los LLMs instrucciones diversas y de alta calidad. Sin embargo, los enfoques existentes suelen asumir que los modelos más grandes o más fuertes son mejores maestros para la optimización de instrucciones, y por lo tanto simplemente adoptan estos modelos como generadores de respuestas a las instrucciones sintéticas. En este artículo, desafiamos esta suposición comúnmente adoptada. Nuestros extensos experimentos con cinco modelos base y veinte generadores de respuestas revelan que los modelos más grandes y más fuertes no son necesariamente mejores maestros para los modelos más pequeños. Nos referimos a este fenómeno como la Paradoja de los Modelos Más Grandes. Observamos que las métricas existentes no pueden predecir con precisión la efectividad de los generadores de respuestas ya que ignoran la compatibilidad entre los maestros y los modelos base que se están ajustando finamente. Por lo tanto, desarrollamos una métrica novedosa, denominada Recompensa Ajustada por Compatibilidad (CAR, por sus siglas en inglés) para medir la efectividad de los generadores de respuestas. Nuestros experimentos con cinco modelos base demuestran que CAR supera casi todos los valores de referencia.
English
Instruction tuning has been widely adopted to ensure large language models (LLMs) follow user instructions effectively. The resulting instruction-following capabilities of LLMs heavily rely on the instruction datasets used for tuning. Recently, synthetic instruction datasets have emerged as an economically viable solution to provide LLMs diverse and high-quality instructions. However, existing approaches typically assume that larger or stronger models are stronger teachers for instruction tuning, and hence simply adopt these models as response generators to the synthetic instructions. In this paper, we challenge this commonly-adopted assumption. Our extensive experiments across five base models and twenty response generators reveal that larger and stronger models are not necessarily stronger teachers of smaller models. We refer to this phenomenon as the Larger Models' Paradox. We observe that existing metrics cannot precisely predict the effectiveness of response generators since they ignore the compatibility between teachers and base models being fine-tuned. We thus develop a novel metric, named as Compatibility-Adjusted Reward (CAR) to measure the effectiveness of response generators. Our experiments across five base models demonstrate that CAR outperforms almost all baselines.

Summary

AI-Generated Summary

PDF392November 13, 2024