ChatPaper.aiChatPaper

LMSYS-Chat-1M : Un jeu de données à grande échelle de conversations réelles avec des modèles de langage de grande taille

LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset

September 21, 2023
Auteurs: Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Tianle Li, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zhuohan Li, Zi Lin, Eric. P Xing, Joseph E. Gonzalez, Ion Stoica, Hao Zhang
cs.AI

Résumé

L'étude des interactions entre les humains et les grands modèles de langage (LLMs) dans des scénarios réels devient de plus en plus importante en raison de leur utilisation généralisée dans diverses applications. Dans cet article, nous présentons LMSYS-Chat-1M, un jeu de données à grande échelle contenant un million de conversations réelles avec 25 LLMs de pointe. Ce jeu de données est collecté à partir de 210 000 adresses IP uniques sur notre démonstration Vicuna et le site web Chatbot Arena. Nous offrons un aperçu du contenu du jeu de données, incluant son processus de curation, ses statistiques de base et la distribution des sujets, mettant en avant sa diversité, son originalité et son ampleur. Nous démontrons sa polyvalence à travers quatre cas d'utilisation : le développement de modèles de modération de contenu performants similaires à GPT-4, la création d'un benchmark de sécurité, l'entraînement de modèles de suivi d'instructions comparables à Vicuna, et la formulation de questions de benchmark complexes. Nous croyons que ce jeu de données constituera une ressource précieuse pour comprendre et faire progresser les capacités des LLMs. Le jeu de données est disponible publiquement à l'adresse suivante : https://huggingface.co/datasets/lmsys/lmsys-chat-1m.
English
Studying how people interact with large language models (LLMs) in real-world scenarios is increasingly important due to their widespread use in various applications. In this paper, we introduce LMSYS-Chat-1M, a large-scale dataset containing one million real-world conversations with 25 state-of-the-art LLMs. This dataset is collected from 210K unique IP addresses in the wild on our Vicuna demo and Chatbot Arena website. We offer an overview of the dataset's content, including its curation process, basic statistics, and topic distribution, highlighting its diversity, originality, and scale. We demonstrate its versatility through four use cases: developing content moderation models that perform similarly to GPT-4, building a safety benchmark, training instruction-following models that perform similarly to Vicuna, and creating challenging benchmark questions. We believe that this dataset will serve as a valuable resource for understanding and advancing LLM capabilities. The dataset is publicly available at https://huggingface.co/datasets/lmsys/lmsys-chat-1m.
PDF254December 15, 2024