Ottimizzazione dei Modelli Linguistici tramite Proxy
Tuning Language Models by Proxy
January 16, 2024
Autori: Alisa Liu, Xiaochuang Han, Yizhong Wang, Yulia Tsvetkov, Yejin Choi, Noah A. Smith
cs.AI
Abstract
Nonostante le capacità generali dei grandi modelli linguistici preaddestrati, essi traggono costantemente vantaggio da un ulteriore adattamento per ottenere meglio i comportamenti desiderati. Tuttavia, ottimizzare questi modelli è diventato sempre più dispendioso in termini di risorse, o impossibile quando i pesi del modello sono privati. Introduciamo il proxy-tuning, un algoritmo leggero in fase di decodifica che opera su modelli linguistici (LM) black-box per ottenere il risultato di un tuning diretto del modello, ma accedendo solo alle sue previsioni sul vocabolario di output. Il nostro metodo invece ottimizza un LM più piccolo, quindi applica la differenza tra le previsioni dei LM piccoli ottimizzati e non ottimizzati per spostare le previsioni originali del modello base nella direzione del tuning, mantenendo i vantaggi del preaddestramento su larga scala. Negli esperimenti, quando applichiamo il proxy-tuning a Llama2-70B utilizzando proxy di dimensioni pari a soli 7B, possiamo colmare l'88% del divario tra Llama2-70B e la sua versione chat realmente ottimizzata, valutata su benchmark di conoscenza, ragionamento e sicurezza. Curiosamente, quando testati su TruthfulQA, i modelli con proxy-tuning sono effettivamente più veritieri rispetto ai modelli ottimizzati direttamente, probabilmente perché la guida in fase di decodifica conserva meglio la conoscenza fattuale del modello. Dimostriamo poi la generalità del proxy-tuning applicandolo per l'adattamento al dominio sul codice e il fine-tuning specifico per attività su problemi di risposta alle domande e di matematica. Il nostro lavoro dimostra il potenziale di utilizzare piccoli LM ottimizzati per personalizzare in modo efficiente grandi LM, potenzialmente proprietari, attraverso la guida in fase di decodifica.
English
Despite the general capabilities of large pretrained language models, they
consistently benefit from further adaptation to better achieve desired
behaviors. However, tuning these models has become increasingly
resource-intensive, or impossible when model weights are private. We introduce
proxy-tuning, a lightweight decoding-time algorithm that operates on top of
black-box LMs to achieve the result of directly tuning the model, but by
accessing only its prediction over the output vocabulary. Our method instead
tunes a smaller LM, then applies the difference between the predictions of the
small tuned and untuned LMs to shift the original predictions of the base model
in the direction of tuning, while retaining the benefits of larger scale
pretraining. In experiments, when we apply proxy-tuning to Llama2-70B using
proxies of only 7B size, we can close 88% of the gap between Llama2-70B and its
truly-tuned chat version, when evaluated across knowledge, reasoning, and
safety benchmarks. Interestingly, when tested on TruthfulQA, proxy-tuned models
are actually more truthful than directly tuned models, possibly because
decoding-time guidance better retains the model's factual knowledge. We then
demonstrate the generality of proxy-tuning by applying it for domain adaptation
on code, and task-specific finetuning on question-answering and math problems.
Our work demonstrates the promise of using small tuned LMs to efficiently
customize large, potentially proprietary LMs through decoding-time guidance.