WildVis：面向海量开放域聊天日志的开源可视化工具

摘要

现实世界对话数据的日益丰富为研究人员研究用户与聊天机器人的互动提供了令人兴奋的机遇。然而，海量的数据使得手动检查单个对话变得不切实际。为应对这一挑战，我们推出了WildVis，这是一款支持快速、灵活且大规模对话分析的交互式工具。WildVis基于一系列标准，在文本和嵌入空间中提供搜索与可视化功能。为处理百万级规模的数据集，我们实施了多项优化措施，包括搜索索引构建、嵌入预计算与压缩以及缓存机制，以确保用户在几秒内获得响应。我们通过三个案例研究展示了WildVis的实用性：助力聊天机器人滥用研究、可视化并比较不同数据集的主题分布，以及刻画用户特定的对话模式。WildVis为开源项目，设计上具有可扩展性，支持更多数据集及定制化的搜索与可视化功能。

English

The increasing availability of real-world conversation data offers exciting opportunities for researchers to study user-chatbot interactions. However, the sheer volume of this data makes manually examining individual conversations impractical. To overcome this challenge, we introduce WildVis, an interactive tool that enables fast, versatile, and large-scale conversation analysis. WildVis provides search and visualization capabilities in the text and embedding spaces based on a list of criteria. To manage million-scale datasets, we implemented optimizations including search index construction, embedding precomputation and compression, and caching to ensure responsive user interactions within seconds. We demonstrate WildVis's utility through three case studies: facilitating chatbot misuse research, visualizing and comparing topic distributions across datasets, and characterizing user-specific conversation patterns. WildVis is open-source and designed to be extendable, supporting additional datasets and customized search and visualization functionalities.