CantTalkAboutThis : Aligner les modèles de langage pour rester sur le sujet dans les dialogues
CantTalkAboutThis: Aligning Language Models to Stay on Topic in Dialogues
April 4, 2024
Auteurs: Makesh Narsimhan Sreedhar, Traian Rebedea, Shaona Ghosh, Christopher Parisien
cs.AI
Résumé
Les avancées récentes dans les ensembles de données pour le réglage par instruction se sont principalement concentrées sur des tâches spécifiques comme le raisonnement mathématique ou logique. On observe un manque notable de données conçues pour aligner les modèles de langage afin de maintenir la pertinence thématique dans les conversations - un aspect crucial pour le déploiement de chatbots en production. Nous présentons l'ensemble de données CantTalkAboutThis pour aider les modèles de langage à rester concentrés sur le sujet en cours lors d'interactions orientées tâche. Il se compose de dialogues synthétiques couvrant un large éventail de sujets de conversation issus de différents domaines. Ces dialogues sont entrecoupés de tours de distraction qui détournent intentionnellement le chatbot du sujet prédéfini. Le réglage fin des modèles de langage sur cet ensemble de données les rend plus résistants aux déviations par rapport au rôle assigné et améliore leur capacité à maintenir la cohérence thématique par rapport aux modèles de langage à usage général réglés par instruction comme GPT-4-turbo et Mixtral-Instruct. De plus, des observations préliminaires suggèrent que l'entraînement des modèles sur cet ensemble de données améliore également leur performance sur des tâches de suivi d'instructions fines.
English
Recent advancements in instruction-tuning datasets have predominantly focused
on specific tasks like mathematical or logical reasoning. There has been a
notable gap in data designed for aligning language models to maintain topic
relevance in conversations - a critical aspect for deploying chatbots to
production. We introduce the CantTalkAboutThis dataset to help language models
remain focused on the subject at hand during task-oriented interactions. It
consists of synthetic dialogues on a wide range of conversation topics from
different domains. These dialogues are interspersed with distractor turns that
intentionally divert the chatbot from the predefined topic. Fine-tuning
language models on this dataset helps make them resilient to deviating from the
role assigned and improves their ability to maintain topical coherence compared
to general-purpose instruction-tuned LLMs like GPT-4-turbo and
Mixtral-Instruct. Additionally, preliminary observations suggest that training
models on this dataset also enhance their performance on fine-grained
instruction following tasks.Summary
AI-Generated Summary