ChatPaper.aiChatPaper

CantTalkAboutThis: Taalmodellen afstemmen om bij het onderwerp te blijven in dialogen

CantTalkAboutThis: Aligning Language Models to Stay on Topic in Dialogues

April 4, 2024
Auteurs: Makesh Narsimhan Sreedhar, Traian Rebedea, Shaona Ghosh, Christopher Parisien
cs.AI

Samenvatting

Recente vooruitgang in instructie-afstemmingsdatasets heeft zich voornamelijk gericht op specifieke taken zoals wiskundig of logisch redeneren. Er is een opvallend gebrek geweest aan data die is ontworpen om taalmodelen af te stemmen op het behouden van onderwerprelevantie in gesprekken – een cruciaal aspect voor het inzetten van chatbots in productie. We introduceren de CantTalkAboutThis-dataset om taalmodelen te helpen gefocust te blijven op het onderwerp tijdens taakgerichte interacties. Deze dataset bestaat uit synthetische dialogen over een breed scala aan gespreksonderwerpen uit verschillende domeinen. Deze dialogen worden afgewisseld met afleidende zetten die de chatbot opzettelijk van het vooraf bepaalde onderwerp afleiden. Het finetunen van taalmodelen op deze dataset helpt ze weerbaarder te maken tegen afwijkingen van de toegewezen rol en verbetert hun vermogen om thematische samenhang te behouden in vergelijking met algemene instructie-afgestemde LLM's zoals GPT-4-turbo en Mixtral-Instruct. Daarnaast suggereren voorlopige observaties dat het trainen van modellen op deze dataset ook hun prestaties verbetert bij taken die nauwkeurige instructieopvolging vereisen.
English
Recent advancements in instruction-tuning datasets have predominantly focused on specific tasks like mathematical or logical reasoning. There has been a notable gap in data designed for aligning language models to maintain topic relevance in conversations - a critical aspect for deploying chatbots to production. We introduce the CantTalkAboutThis dataset to help language models remain focused on the subject at hand during task-oriented interactions. It consists of synthetic dialogues on a wide range of conversation topics from different domains. These dialogues are interspersed with distractor turns that intentionally divert the chatbot from the predefined topic. Fine-tuning language models on this dataset helps make them resilient to deviating from the role assigned and improves their ability to maintain topical coherence compared to general-purpose instruction-tuned LLMs like GPT-4-turbo and Mixtral-Instruct. Additionally, preliminary observations suggest that training models on this dataset also enhance their performance on fine-grained instruction following tasks.
PDF265December 15, 2024