WildVis: Visualizador de Código Abierto para Registros de Chat a Escala de Millones en Entornos Reales
WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild
September 5, 2024
Autores: Yuntian Deng, Wenting Zhao, Jack Hessel, Xiang Ren, Claire Cardie, Yejin Choi
cs.AI
Resumen
La creciente disponibilidad de datos de conversaciones del mundo real ofrece oportunidades emocionantes para que los investigadores estudien las interacciones entre usuarios y chatbots. Sin embargo, el gran volumen de estos datos hace que el examen manual de conversaciones individuales resulte poco práctico. Para superar este desafío, presentamos WildVis, una herramienta interactiva que permite un análisis rápido, versátil y a gran escala de conversaciones. WildVis ofrece capacidades de búsqueda y visualización en los espacios de texto y de embeddings basadas en una lista de criterios. Para manejar conjuntos de datos de escala millonaria, implementamos optimizaciones que incluyen la construcción de índices de búsqueda, el preprocesamiento y compresión de embeddings, y el uso de caché para garantizar interacciones de usuario ágiles en cuestión de segundos. Demostramos la utilidad de WildVis a través de tres estudios de caso: facilitar la investigación sobre el mal uso de chatbots, visualizar y comparar distribuciones de temas entre conjuntos de datos, y caracterizar patrones de conversación específicos de usuarios. WildVis es de código abierto y está diseñado para ser extensible, admitiendo conjuntos de datos adicionales y funcionalidades personalizadas de búsqueda y visualización.
English
The increasing availability of real-world conversation data offers exciting
opportunities for researchers to study user-chatbot interactions. However, the
sheer volume of this data makes manually examining individual conversations
impractical. To overcome this challenge, we introduce WildVis, an interactive
tool that enables fast, versatile, and large-scale conversation analysis.
WildVis provides search and visualization capabilities in the text and
embedding spaces based on a list of criteria. To manage million-scale datasets,
we implemented optimizations including search index construction, embedding
precomputation and compression, and caching to ensure responsive user
interactions within seconds. We demonstrate WildVis's utility through three
case studies: facilitating chatbot misuse research, visualizing and comparing
topic distributions across datasets, and characterizing user-specific
conversation patterns. WildVis is open-source and designed to be extendable,
supporting additional datasets and customized search and visualization
functionalities.