Ottimizzazione dei Modelli Linguistici tramite Proxy

Abstract

Nonostante le capacità generali dei grandi modelli linguistici preaddestrati, essi traggono costantemente vantaggio da un ulteriore adattamento per ottenere meglio i comportamenti desiderati. Tuttavia, ottimizzare questi modelli è diventato sempre più dispendioso in termini di risorse, o impossibile quando i pesi del modello sono privati. Introduciamo il proxy-tuning, un algoritmo leggero in fase di decodifica che opera su modelli linguistici (LM) black-box per ottenere il risultato di un tuning diretto del modello, ma accedendo solo alle sue previsioni sul vocabolario di output. Il nostro metodo invece ottimizza un LM più piccolo, quindi applica la differenza tra le previsioni dei LM piccoli ottimizzati e non ottimizzati per spostare le previsioni originali del modello base nella direzione del tuning, mantenendo i vantaggi del preaddestramento su larga scala. Negli esperimenti, quando applichiamo il proxy-tuning a Llama2-70B utilizzando proxy di dimensioni pari a soli 7B, possiamo colmare l'88% del divario tra Llama2-70B e la sua versione chat realmente ottimizzata, valutata su benchmark di conoscenza, ragionamento e sicurezza. Curiosamente, quando testati su TruthfulQA, i modelli con proxy-tuning sono effettivamente più veritieri rispetto ai modelli ottimizzati direttamente, probabilmente perché la guida in fase di decodifica conserva meglio la conoscenza fattuale del modello. Dimostriamo poi la generalità del proxy-tuning applicandolo per l'adattamento al dominio sul codice e il fine-tuning specifico per attività su problemi di risposta alle domande e di matematica. Il nostro lavoro dimostra il potenziale di utilizzare piccoli LM ottimizzati per personalizzare in modo efficiente grandi LM, potenzialmente proprietari, attraverso la guida in fase di decodifica.

English

Despite the general capabilities of large pretrained language models, they consistently benefit from further adaptation to better achieve desired behaviors. However, tuning these models has become increasingly resource-intensive, or impossible when model weights are private. We introduce proxy-tuning, a lightweight decoding-time algorithm that operates on top of black-box LMs to achieve the result of directly tuning the model, but by accessing only its prediction over the output vocabulary. Our method instead tunes a smaller LM, then applies the difference between the predictions of the small tuned and untuned LMs to shift the original predictions of the base model in the direction of tuning, while retaining the benefits of larger scale pretraining. In experiments, when we apply proxy-tuning to Llama2-70B using proxies of only 7B size, we can close 88% of the gap between Llama2-70B and its truly-tuned chat version, when evaluated across knowledge, reasoning, and safety benchmarks. Interestingly, when tested on TruthfulQA, proxy-tuned models are actually more truthful than directly tuned models, possibly because decoding-time guidance better retains the model's factual knowledge. We then demonstrate the generality of proxy-tuning by applying it for domain adaptation on code, and task-specific finetuning on question-answering and math problems. Our work demonstrates the promise of using small tuned LMs to efficiently customize large, potentially proprietary LMs through decoding-time guidance.

Ottimizzazione dei Modelli Linguistici tramite Proxy

Tuning Language Models by Proxy

Abstract

Support