ChatPaper.aiChatPaper

Qilin: 앱 수준 사용자 세션을 포함한 멀티모달 정보 검색 데이터셋

Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions

March 1, 2025
저자: Jia Chen, Qian Dong, Haitao Li, Xiaohui He, Yan Gao, Shaosheng Cao, Yi Wu, Ping Yang, Chen Xu, Yao Hu, Qingyao Ai, Yiqun Liu
cs.AI

초록

사용자 생성 콘텐츠(UGC) 커뮤니티, 특히 멀티모달 콘텐츠를 특징으로 하는 커뮤니티는 시각적 및 텍스트 정보를 결과(또는 항목)에 통합함으로써 사용자 경험을 향상시킵니다. 검색 및 추천(S&R) 서비스를 포함한 복잡한 시스템에서 사용자 경험을 개선하는 문제는 최근 몇 년 동안 학계와 산업계 모두로부터 상당한 관심을 받아왔습니다. 그러나 고품질 데이터셋의 부족은 멀티모달 S&R 연구의 진전을 제한해 왔습니다. 더 나은 S&R 서비스 개발에 대한 증가하는 요구를 해결하기 위해, 본 논문에서는 새로운 멀티모달 정보 검색 데이터셋인 Qilin을 소개합니다. 이 데이터셋은 월간 활성 사용자 수가 3억 명 이상이고 평균 검색 접근률이 70%를 넘는 인기 소셜 플랫폼인 샤오홍슈(Xiaohongshu)에서 수집되었습니다. 기존 데이터셋과 달리, Qilin은 이미지-텍스트 노트, 비디오 노트, 상업적 노트, 직접 답변과 같은 다양한 결과를 포함한 사용자 세션의 포괄적인 컬렉션을 제공하여 다양한 작업 설정에서 고급 멀티모달 신경 검색 모델의 개발을 촉진합니다. 사용자 만족도를 더 잘 모델링하고 다양한 사용자 행동 분석을 지원하기 위해, 우리는 또한 광범위한 앱 수준의 컨텍스트 신호와 진정한 사용자 피드백을 수집했습니다. 특히, Qilin은 Deep Query Answering (DQA) 모듈을 트리거하는 검색 요청에 대한 사용자 선호 답변과 그들이 참조한 결과를 포함합니다. 이는 Retrieval-augmented Generation (RAG) 파이프라인의 훈련 및 평가뿐만 아니라, 이러한 모듈이 사용자의 검색 행동에 어떻게 영향을 미치는지 탐구할 수 있게 합니다. 포괄적인 분석과 실험을 통해, 우리는 S&R 시스템을 더욱 개선하기 위한 흥미로운 발견과 통찰을 제공합니다. 우리는 Qilin이 향후 S&R 서비스를 갖춘 멀티모달 콘텐츠 플랫폼의 발전에 크게 기여하기를 바랍니다.
English
User-generated content (UGC) communities, especially those featuring multimodal content, improve user experiences by integrating visual and textual information into results (or items). The challenge of improving user experiences in complex systems with search and recommendation (S\&R) services has drawn significant attention from both academia and industry these years. However, the lack of high-quality datasets has limited the research progress on multimodal S\&R. To address the growing need for developing better S\&R services, we present a novel multimodal information retrieval dataset in this paper, namely Qilin. The dataset is collected from Xiaohongshu, a popular social platform with over 300 million monthly active users and an average search penetration rate of over 70\%. In contrast to existing datasets, Qilin offers a comprehensive collection of user sessions with heterogeneous results like image-text notes, video notes, commercial notes, and direct answers, facilitating the development of advanced multimodal neural retrieval models across diverse task settings. To better model user satisfaction and support the analysis of heterogeneous user behaviors, we also collect extensive APP-level contextual signals and genuine user feedback. Notably, Qilin contains user-favored answers and their referred results for search requests triggering the Deep Query Answering (DQA) module. This allows not only the training \& evaluation of a Retrieval-augmented Generation (RAG) pipeline, but also the exploration of how such a module would affect users' search behavior. Through comprehensive analysis and experiments, we provide interesting findings and insights for further improving S\&R systems. We hope that Qilin will significantly contribute to the advancement of multimodal content platforms with S\&R services in the future.

Summary

AI-Generated Summary

PDF122March 4, 2025