WildVis: 야생 환경에서 수집된 대규모 채팅 로그를 위한 오픈 소스 시각화 도구
WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild
September 5, 2024
저자: Yuntian Deng, Wenting Zhao, Jack Hessel, Xiang Ren, Claire Cardie, Yejin Choi
cs.AI
초록
실제 대화 데이터의 증가는 연구자들에게 사용자-챗봇 상호작용을 연구할 수 있는 흥미로운 기회를 제공합니다. 그러나 방대한 데이터 양으로 인해 개별 대화를 수동으로 검토하는 것은 실용적이지 않습니다. 이러한 문제를 해결하기 위해 우리는 빠르고 다양하며 대규모 대화 분석을 가능하게 하는 상호작용형 도구인 WildVis를 소개합니다. WildVis는 텍스트 공간과 임베딩 공간에서 다양한 기준에 기반한 검색 및 시각화 기능을 제공합니다. 수백만 규모의 데이터셋을 관리하기 위해 검색 인덱스 구축, 임베딩 사전 계산 및 압축, 캐싱 등의 최적화를 구현하여 몇 초 내에 반응하는 사용자 상호작용을 보장합니다. 우리는 WildVis의 유용성을 세 가지 사례 연구를 통해 입증합니다: 챗봇 오용 연구 지원, 데이터셋 간 토픽 분포 시각화 및 비교, 사용자별 대화 패턴 특성 분석. WildVis는 오픈소스이며 확장 가능하게 설계되어 추가 데이터셋과 맞춤형 검색 및 시각화 기능을 지원합니다.
English
The increasing availability of real-world conversation data offers exciting
opportunities for researchers to study user-chatbot interactions. However, the
sheer volume of this data makes manually examining individual conversations
impractical. To overcome this challenge, we introduce WildVis, an interactive
tool that enables fast, versatile, and large-scale conversation analysis.
WildVis provides search and visualization capabilities in the text and
embedding spaces based on a list of criteria. To manage million-scale datasets,
we implemented optimizations including search index construction, embedding
precomputation and compression, and caching to ensure responsive user
interactions within seconds. We demonstrate WildVis's utility through three
case studies: facilitating chatbot misuse research, visualizing and comparing
topic distributions across datasets, and characterizing user-specific
conversation patterns. WildVis is open-source and designed to be extendable,
supporting additional datasets and customized search and visualization
functionalities.