ChatPaper.aiChatPaper

Ottimizzazione della Risposta: Allineare Grandi Modelli Linguistici senza Istruzioni

Response Tuning: Aligning Large Language Models without Instruction

October 3, 2024
Autori: Seokhyun An, Hyounghun Kim
cs.AI

Abstract

L'ottimizzazione delle istruzioni - il fine-tuning supervisionato utilizzando coppie istruzione-risposta - è un passo fondamentale nel passaggio dei Grandi Modelli Linguistici (LLM) pre-addestrati in utili e sicuri assistenti virtuali. La nostra ipotesi è che stabilire uno spazio di output adeguato possa abilitare tale transizione, date le capacità intrinseche nei LLM pre-addestrati. Per verificare ciò, proponiamo il Tuning della Risposta (RT), che elimina il passo di condizionamento dell'istruzione nell'ottimizzazione delle istruzioni e si concentra esclusivamente sulla supervisione dello spazio delle risposte. I nostri esperimenti dimostrano che i modelli RT, addestrati solo utilizzando le risposte, possono rispondere efficacemente a una vasta gamma di istruzioni e mostrare un grado di utilità paragonabile a quello dei loro corrispettivi addestrati con le istruzioni. Inoltre, osserviamo che controllare la distribuzione delle risposte durante l'addestramento può migliorare significativamente la preferenza dell'utente o suscitare comportamenti desiderati come il rifiuto di assistenza per query non sicure. Le nostre scoperte mettono in luce il ruolo dello stabilire uno spazio di output adeguato in allineamento, evidenziando il potenziale delle estese capacità intrinseche dei LLM pre-addestrati.
English
Instruction tuning-supervised fine-tuning using instruction-response pairs-is a foundational step in transitioning pre-trained Large Language Models (LLMs) into helpful and safe chat assistants. Our hypothesis is that establishing an adequate output space can enable such a transition given the capabilities inherent in pre-trained LLMs. To verify this, we propose Response Tuning (RT), which eliminates the instruction-conditioning step in instruction tuning and solely focuses on response space supervision. Our experiments demonstrate that RT models, trained only using responses, can effectively respond to a wide range of instructions and exhibit helpfulness comparable to that of their instruction-tuned counterparts. Furthermore, we observe that controlling the training response distribution can significantly improve their user preference or elicit target behaviors such as refusing assistance for unsafe queries. Our findings illuminate the role of establishing an adequate output space in alignment, highlighting the potential of the extensive inherent capabilities of pre-trained LLMs.
PDF132November 16, 2024