WildVis: ワイルド環境における百万規模チャットログのオープンソース可視化ツール
WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild
September 5, 2024
著者: Yuntian Deng, Wenting Zhao, Jack Hessel, Xiang Ren, Claire Cardie, Yejin Choi
cs.AI
要旨
実世界の会話データの増加は、研究者がユーザーとチャットボットの相互作用を研究する上で新たな可能性を開いています。しかし、その膨大な量ゆえに、個々の会話を手動で検討することは非現実的です。この課題を克服するため、高速で多目的かつ大規模な会話分析を可能にする対話型ツール「WildVis」を開発しました。WildVisは、テキスト空間と埋め込み空間の両方において、様々な基準に基づいた検索と可視化機能を提供します。数百万規模のデータセットを扱うため、検索インデックス構築、埋め込みの事前計算と圧縮、キャッシュ機能などの最適化を実装し、数秒以内の応答性を確保しています。本ツールの有用性は、3つのケーススタディを通じて実証しています:チャットボットの悪用研究の支援、データセット間のトピック分布の可視化と比較、ユーザー固有の会話パターンの特性分析です。WildVisはオープンソースであり、追加データセットやカスタマイズされた検索・可視化機能をサポートする拡張性を備えています。
English
The increasing availability of real-world conversation data offers exciting
opportunities for researchers to study user-chatbot interactions. However, the
sheer volume of this data makes manually examining individual conversations
impractical. To overcome this challenge, we introduce WildVis, an interactive
tool that enables fast, versatile, and large-scale conversation analysis.
WildVis provides search and visualization capabilities in the text and
embedding spaces based on a list of criteria. To manage million-scale datasets,
we implemented optimizations including search index construction, embedding
precomputation and compression, and caching to ensure responsive user
interactions within seconds. We demonstrate WildVis's utility through three
case studies: facilitating chatbot misuse research, visualizing and comparing
topic distributions across datasets, and characterizing user-specific
conversation patterns. WildVis is open-source and designed to be extendable,
supporting additional datasets and customized search and visualization
functionalities.