ChatPaper.aiChatPaper

Responsetuning: Afstemmen van grote taalmodellen zonder instructie

Response Tuning: Aligning Large Language Models without Instruction

October 3, 2024
Auteurs: Seokhyun An, Hyounghun Kim
cs.AI

Samenvatting

Instructieafstemming - begeleide fijnafstemming met behulp van instructie-responsparen - is een fundamentele stap bij het overgangen van vooraf getrainde Grote Taalmodellen (GTM's) naar behulpzame en veilige chatassistenten. Onze hypothese is dat het opzetten van een adequate uitvoerruimte zo'n overgang mogelijk kan maken gezien de inherente mogelijkheden van vooraf getrainde GTM's. Om dit te verifiëren, stellen we Responsafstemming (RA) voor, waarbij de instructie-conditioneringstap in instructieafstemming wordt geëlimineerd en de focus uitsluitend op supervisie van de responsruimte ligt. Onze experimenten tonen aan dat RA-modellen, enkel getraind met reacties, effectief kunnen reageren op een breed scala aan instructies en behulpzaamheid vertonen die vergelijkbaar is met die van hun instructie-afgestemde tegenhangers. Bovendien merken we op dat het controleren van de trainingsresponsverdeling hun gebruikersvoorkeur aanzienlijk kan verbeteren of doelgedragingen kan oproepen, zoals het weigeren van hulp bij onveilige vragen. Onze bevindingen verduidelijken de rol van het opzetten van een adequate uitvoerruimte in afstemming, waarbij het potentieel van de uitgebreide inherente mogelijkheden van vooraf getrainde GTM's wordt benadrukt.
English
Instruction tuning-supervised fine-tuning using instruction-response pairs-is a foundational step in transitioning pre-trained Large Language Models (LLMs) into helpful and safe chat assistants. Our hypothesis is that establishing an adequate output space can enable such a transition given the capabilities inherent in pre-trained LLMs. To verify this, we propose Response Tuning (RT), which eliminates the instruction-conditioning step in instruction tuning and solely focuses on response space supervision. Our experiments demonstrate that RT models, trained only using responses, can effectively respond to a wide range of instructions and exhibit helpfulness comparable to that of their instruction-tuned counterparts. Furthermore, we observe that controlling the training response distribution can significantly improve their user preference or elicit target behaviors such as refusing assistance for unsafe queries. Our findings illuminate the role of establishing an adequate output space in alignment, highlighting the potential of the extensive inherent capabilities of pre-trained LLMs.

Summary

AI-Generated Summary

PDF132November 16, 2024