DialogStudio: Hacia la Colección de Datos Unificada Más Rica y Diversa para IA Conversacional
DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI
July 19, 2023
Autores: Jianguo Zhang, Kun Qian, Zhiwei Liu, Shelby Heinecke, Rui Meng, Ye Liu, Zhou Yu, Huan Wang, Silvio Savarese, Caiming Xiong
cs.AI
Resumen
A pesar de los avances en IA conversacional, los modelos de lenguaje enfrentan desafíos para manejar diversas tareas conversacionales, y las colecciones de conjuntos de datos de diálogo existentes a menudo carecen de diversidad y exhaustividad. Para abordar estos problemas, presentamos DialogStudio: la colección más grande y diversa de conjuntos de datos de diálogo, unificados bajo un formato consistente mientras se preserva su información original. Nuestra colección abarca datos de diálogos de dominio abierto, diálogos orientados a tareas, comprensión del lenguaje natural, recomendación conversacional, resumen de diálogos y diálogos basados en conocimiento, convirtiéndola en un recurso increíblemente rico y diverso para la investigación en diálogos y el entrenamiento de modelos. Para mejorar aún más la utilidad de DialogStudio, identificamos las licencias de cada conjunto de datos y diseñamos indicaciones conscientes del dominio para diálogos seleccionados, facilitando el ajuste fino basado en instrucciones. Además, desarrollamos modelos de IA conversacional utilizando la colección de conjuntos de datos, y nuestros experimentos en escenarios de aprendizaje tanto en cero disparos como en pocos disparos demuestran la superioridad de DialogStudio. Para mejorar la transparencia y apoyar la investigación basada en conjuntos de datos y tareas, así como el preentrenamiento de modelos de lenguaje, todos los conjuntos de datos, licencias, códigos y modelos asociados con DialogStudio están disponibles públicamente en https://github.com/salesforce/DialogStudio.
English
Despite advancements in conversational AI, language models encounter
challenges to handle diverse conversational tasks, and existing dialogue
dataset collections often lack diversity and comprehensiveness. To tackle these
issues, we introduce DialogStudio: the largest and most diverse collection of
dialogue datasets, unified under a consistent format while preserving their
original information. Our collection encompasses data from open-domain
dialogues, task-oriented dialogues, natural language understanding,
conversational recommendation, dialogue summarization, and knowledge-grounded
dialogues, making it an incredibly rich and diverse resource for dialogue
research and model training. To further enhance the utility of DialogStudio, we
identify the licenses for each dataset and design domain-aware prompts for
selected dialogues to facilitate instruction-aware fine-tuning. Furthermore, we
develop conversational AI models using the dataset collection, and our
experiments in both zero-shot and few-shot learning scenarios demonstrate the
superiority of DialogStudio. To improve transparency and support dataset and
task-based research, as well as language model pre-training, all datasets,
licenses, codes, and models associated with DialogStudio are made publicly
accessible at https://github.com/salesforce/DialogStudio