Ottimizzazione della Risposta: Allineare Grandi Modelli Linguistici senza Istruzioni
Response Tuning: Aligning Large Language Models without Instruction
October 3, 2024
Autori: Seokhyun An, Hyounghun Kim
cs.AI
Abstract
L'ottimizzazione delle istruzioni - il fine-tuning supervisionato utilizzando coppie istruzione-risposta - è un passo fondamentale nel passaggio dei Grandi Modelli Linguistici (LLM) pre-addestrati in utili e sicuri assistenti virtuali. La nostra ipotesi è che stabilire uno spazio di output adeguato possa abilitare tale transizione, date le capacità intrinseche nei LLM pre-addestrati. Per verificare ciò, proponiamo il Tuning della Risposta (RT), che elimina il passo di condizionamento dell'istruzione nell'ottimizzazione delle istruzioni e si concentra esclusivamente sulla supervisione dello spazio delle risposte. I nostri esperimenti dimostrano che i modelli RT, addestrati solo utilizzando le risposte, possono rispondere efficacemente a una vasta gamma di istruzioni e mostrare un grado di utilità paragonabile a quello dei loro corrispettivi addestrati con le istruzioni. Inoltre, osserviamo che controllare la distribuzione delle risposte durante l'addestramento può migliorare significativamente la preferenza dell'utente o suscitare comportamenti desiderati come il rifiuto di assistenza per query non sicure. Le nostre scoperte mettono in luce il ruolo dello stabilire uno spazio di output adeguato in allineamento, evidenziando il potenziale delle estese capacità intrinseche dei LLM pre-addestrati.
English
Instruction tuning-supervised fine-tuning using instruction-response pairs-is
a foundational step in transitioning pre-trained Large Language Models (LLMs)
into helpful and safe chat assistants. Our hypothesis is that establishing an
adequate output space can enable such a transition given the capabilities
inherent in pre-trained LLMs. To verify this, we propose Response Tuning (RT),
which eliminates the instruction-conditioning step in instruction tuning and
solely focuses on response space supervision. Our experiments demonstrate that
RT models, trained only using responses, can effectively respond to a wide
range of instructions and exhibit helpfulness comparable to that of their
instruction-tuned counterparts. Furthermore, we observe that controlling the
training response distribution can significantly improve their user preference
or elicit target behaviors such as refusing assistance for unsafe queries. Our
findings illuminate the role of establishing an adequate output space in
alignment, highlighting the potential of the extensive inherent capabilities of
pre-trained LLMs.