CantTalkAboutThis: Allineamento dei modelli linguistici per mantenere il focus tematico nei dialoghi
CantTalkAboutThis: Aligning Language Models to Stay on Topic in Dialogues
April 4, 2024
Autori: Makesh Narsimhan Sreedhar, Traian Rebedea, Shaona Ghosh, Christopher Parisien
cs.AI
Abstract
I recenti progressi nei dataset per il fine-tuning delle istruzioni si sono concentrati principalmente su compiti specifici come il ragionamento matematico o logico. Si è osservata una lacuna significativa nei dati progettati per allineare i modelli linguistici al fine di mantenere la pertinenza del tema nelle conversazioni, un aspetto cruciale per il deployment di chatbot in produzione. Introduciamo il dataset CantTalkAboutThis per aiutare i modelli linguistici a rimanere focalizzati sull'argomento in corso durante le interazioni orientate al compito. Esso consiste in dialoghi sintetici su un'ampia gamma di argomenti conversazionali provenienti da diversi domini. Questi dialoghi sono intervallati da turni distraenti che intenzionalmente deviano il chatbot dal tema predefinito. Il fine-tuning dei modelli linguistici su questo dataset li rende più resistenti alla deviazione dal ruolo assegnato e migliora la loro capacità di mantenere la coerenza tematica rispetto a modelli linguistici general-purpose con fine-tuning delle istruzioni come GPT-4-turbo e Mixtral-Instruct. Inoltre, osservazioni preliminari suggeriscono che l'addestramento dei modelli su questo dataset migliora anche le loro prestazioni nei compiti di seguire istruzioni dettagliate.
English
Recent advancements in instruction-tuning datasets have predominantly focused
on specific tasks like mathematical or logical reasoning. There has been a
notable gap in data designed for aligning language models to maintain topic
relevance in conversations - a critical aspect for deploying chatbots to
production. We introduce the CantTalkAboutThis dataset to help language models
remain focused on the subject at hand during task-oriented interactions. It
consists of synthetic dialogues on a wide range of conversation topics from
different domains. These dialogues are interspersed with distractor turns that
intentionally divert the chatbot from the predefined topic. Fine-tuning
language models on this dataset helps make them resilient to deviating from the
role assigned and improves their ability to maintain topical coherence compared
to general-purpose instruction-tuned LLMs like GPT-4-turbo and
Mixtral-Instruct. Additionally, preliminary observations suggest that training
models on this dataset also enhance their performance on fine-grained
instruction following tasks.