CantTalkAboutThis: Alineación de Modelos de Lenguaje para Mantenerse en Tema en Diálogos
CantTalkAboutThis: Aligning Language Models to Stay on Topic in Dialogues
April 4, 2024
Autores: Makesh Narsimhan Sreedhar, Traian Rebedea, Shaona Ghosh, Christopher Parisien
cs.AI
Resumen
Los avances recientes en los conjuntos de datos de ajuste por instrucciones se han centrado principalmente en tareas específicas, como el razonamiento matemático o lógico. Se ha observado una brecha notable en los datos diseñados para alinear modelos de lenguaje con el fin de mantener la relevancia temática en las conversaciones, un aspecto crítico para implementar chatbots en entornos de producción. Presentamos el conjunto de datos CantTalkAboutThis, que ayuda a los modelos de lenguaje a mantenerse enfocados en el tema en cuestión durante interacciones orientadas a tareas. Este conjunto consiste en diálogos sintéticos sobre una amplia gama de temas de conversación de diferentes dominios. Estos diálogos están intercalados con turnos distractores que intencionalmente desvían al chatbot del tema predefinido. El ajuste fino de modelos de lenguaje con este conjunto de datos los hace más resistentes a desviarse del rol asignado y mejora su capacidad para mantener la coherencia temática en comparación con modelos de lenguaje de propósito general ajustados por instrucciones, como GPT-4-turbo y Mixtral-Instruct. Además, observaciones preliminares sugieren que entrenar modelos con este conjunto de datos también mejora su rendimiento en tareas de seguimiento de instrucciones detalladas.
English
Recent advancements in instruction-tuning datasets have predominantly focused
on specific tasks like mathematical or logical reasoning. There has been a
notable gap in data designed for aligning language models to maintain topic
relevance in conversations - a critical aspect for deploying chatbots to
production. We introduce the CantTalkAboutThis dataset to help language models
remain focused on the subject at hand during task-oriented interactions. It
consists of synthetic dialogues on a wide range of conversation topics from
different domains. These dialogues are interspersed with distractor turns that
intentionally divert the chatbot from the predefined topic. Fine-tuning
language models on this dataset helps make them resilient to deviating from the
role assigned and improves their ability to maintain topical coherence compared
to general-purpose instruction-tuned LLMs like GPT-4-turbo and
Mixtral-Instruct. Additionally, preliminary observations suggest that training
models on this dataset also enhance their performance on fine-grained
instruction following tasks.Summary
AI-Generated Summary