LMSYS-Chat-1M: Un conjunto de datos a gran escala de conversaciones del mundo real con modelos de lenguaje grandes (LLM)
LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset
September 21, 2023
Autores: Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Tianle Li, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zhuohan Li, Zi Lin, Eric. P Xing, Joseph E. Gonzalez, Ion Stoica, Hao Zhang
cs.AI
Resumen
Estudiar cómo las personas interactúan con los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en escenarios del mundo real es cada vez más importante debido a su uso generalizado en diversas aplicaciones. En este artículo, presentamos LMSYS-Chat-1M, un conjunto de datos a gran escala que contiene un millón de conversaciones del mundo real con 25 LLMs de última generación. Este conjunto de datos se recopiló de 210K direcciones IP únicas en entornos reales a través de nuestra demostración de Vicuna y el sitio web Chatbot Arena. Ofrecemos una visión general del contenido del conjunto de datos, incluyendo su proceso de curación, estadísticas básicas y distribución de temas, destacando su diversidad, originalidad y escala. Demostramos su versatilidad a través de cuatro casos de uso: desarrollo de modelos de moderación de contenido que funcionan de manera similar a GPT-4, creación de un punto de referencia de seguridad, entrenamiento de modelos que siguen instrucciones de manera similar a Vicuna y elaboración de preguntas de referencia desafiantes. Creemos que este conjunto de datos servirá como un recurso valioso para comprender y avanzar en las capacidades de los LLMs. El conjunto de datos está disponible públicamente en https://huggingface.co/datasets/lmsys/lmsys-chat-1m.
English
Studying how people interact with large language models (LLMs) in real-world
scenarios is increasingly important due to their widespread use in various
applications. In this paper, we introduce LMSYS-Chat-1M, a large-scale dataset
containing one million real-world conversations with 25 state-of-the-art LLMs.
This dataset is collected from 210K unique IP addresses in the wild on our
Vicuna demo and Chatbot Arena website. We offer an overview of the dataset's
content, including its curation process, basic statistics, and topic
distribution, highlighting its diversity, originality, and scale. We
demonstrate its versatility through four use cases: developing content
moderation models that perform similarly to GPT-4, building a safety benchmark,
training instruction-following models that perform similarly to Vicuna, and
creating challenging benchmark questions. We believe that this dataset will
serve as a valuable resource for understanding and advancing LLM capabilities.
The dataset is publicly available at
https://huggingface.co/datasets/lmsys/lmsys-chat-1m.