Optimisation des modèles de langage par procuration
Tuning Language Models by Proxy
January 16, 2024
Auteurs: Alisa Liu, Xiaochuang Han, Yizhong Wang, Yulia Tsvetkov, Yejin Choi, Noah A. Smith
cs.AI
Résumé
Malgré les capacités générales des grands modèles de langage pré-entraînés, ils bénéficient systématiquement d'une adaptation supplémentaire pour mieux atteindre les comportements souhaités. Cependant, l'ajustement de ces modèles est devenu de plus en plus coûteux en ressources, voire impossible lorsque les poids des modèles sont privés. Nous introduisons le *proxy-tuning*, un algorithme léger fonctionnant au moment du décodage et opérant sur des modèles de langage (LM) en boîte noire pour obtenir le résultat d'un ajustement direct du modèle, mais en accédant uniquement à ses prédictions sur le vocabulaire de sortie. Notre méthode consiste plutôt à ajuster un LM plus petit, puis à appliquer la différence entre les prédictions des petits LM ajustés et non ajustés pour décaler les prédictions originales du modèle de base dans la direction de l'ajustement, tout en conservant les avantages d'un pré-entraînement à plus grande échelle. Dans les expériences, lorsque nous appliquons le *proxy-tuning* à Llama2-70B en utilisant des proxies de seulement 7B, nous pouvons combler 88 % de l'écart entre Llama2-70B et sa version chat réellement ajustée, lorsqu'elle est évaluée sur des benchmarks de connaissances, de raisonnement et de sécurité. Fait intéressant, lorsqu'ils sont testés sur TruthfulQA, les modèles ajustés par *proxy-tuning* sont en réalité plus véridiques que les modèles directement ajustés, probablement parce que le guidage au moment du décodage préserve mieux les connaissances factuelles du modèle. Nous démontrons ensuite la généralité du *proxy-tuning* en l'appliquant pour l'adaptation de domaine sur du code, et pour l'ajustement spécifique à des tâches sur des questions-réponses et des problèmes mathématiques. Notre travail montre la promesse d'utiliser de petits LM ajustés pour personnaliser efficacement de grands LM, potentiellement propriétaires, grâce à un guidage au moment du décodage.
English
Despite the general capabilities of large pretrained language models, they
consistently benefit from further adaptation to better achieve desired
behaviors. However, tuning these models has become increasingly
resource-intensive, or impossible when model weights are private. We introduce
proxy-tuning, a lightweight decoding-time algorithm that operates on top of
black-box LMs to achieve the result of directly tuning the model, but by
accessing only its prediction over the output vocabulary. Our method instead
tunes a smaller LM, then applies the difference between the predictions of the
small tuned and untuned LMs to shift the original predictions of the base model
in the direction of tuning, while retaining the benefits of larger scale
pretraining. In experiments, when we apply proxy-tuning to Llama2-70B using
proxies of only 7B size, we can close 88% of the gap between Llama2-70B and its
truly-tuned chat version, when evaluated across knowledge, reasoning, and
safety benchmarks. Interestingly, when tested on TruthfulQA, proxy-tuned models
are actually more truthful than directly tuned models, possibly because
decoding-time guidance better retains the model's factual knowledge. We then
demonstrate the generality of proxy-tuning by applying it for domain adaptation
on code, and task-specific finetuning on question-answering and math problems.
Our work demonstrates the promise of using small tuned LMs to efficiently
customize large, potentially proprietary LMs through decoding-time guidance.