GroupGPT: 다중 사용자 채팅 어시스턴트를 위한 토큰 효율적이고 개인정보 보호 기반 에이전트 프레임워크
GroupGPT: A Token-efficient and Privacy-preserving Agentic Framework for Multi-User Chat Assistant
March 1, 2026
저자: Zhuokang Shen, Yifan Wang, Hanyu Chen, Wenxuan Huang, Shaohui Lin
cs.AI
초록
대규모 언어 모델(LLM)의 최근 발전으로 점차 능력이 향상된 챗봇이 등장하고 있습니다. 그러나 기존 시스템 대부분은 단일 사용자 환경에 중점을 두고 있어, 복잡하고 변화하는 상황에서 에이전트가 보다 주도적이고 정확하게 개입해야 하는 다중 사용자 그룹 채팅으로는 잘 일반화되지 않습니다. 기존 접근법은 일반적으로 추론과 생성 모두에 LLM을 사용하여 높은 토큰 소비, 제한된 확장성 및 잠재적인 개인정보 보호 위험을 초래합니다. 이러한 문제를 해결하기 위해 본 연구에서는 다중 사용자 채팅 어시스턴트를 위한 토큰 효율적이고 개인정보를 보호하는 에이전트 프레임워크인 GroupGPT를 제안합니다. GroupGPT는 소형-대형 모델 협업 아키텍처를 채택하여 개입 시기와 응답 생성을 분리함으로써 효율적이고 정확한 의사 결정을 가능하게 합니다. 또한 이 프레임워크는 밈, 이미지, 동영상, 음성 메시지를 포함한 다중 모드 입력을 지원합니다. 우리는 더 나아가 다중 사용자 채팅 어시스턴트 개입 추론을 위한 벤치마크 데이터셋인 MUIR을 소개합니다. MUIR은 개입 레이블과 근거가 포함된 2,500개의 주석이 달린 그룹 채팅 세그먼트를 포함하며, 시기 정확성과 응답 품질 평가를 지원합니다. 우리는 대규모 언어 모델부터 소규모 모델에 이르기까지 다양한 모델을 MUIR에서 평가합니다. 광범위한 실험을 통해 GroupGPT가 정확하고 시기 적절한 응답을 생성하며, LLM 기반 평가에서 평균 4.72/5.0점을 달성하고 다양한 그룹 채팅 시나리오에서 사용자들에게 호응을 얻는 것으로 나타났습니다. 또한 GroupGPT는 기준 방법 대비 토큰 사용량을 최대 3배까지 줄이면서, 클라우드 전송 전 사용자 메시지에 대한 개인정보 정제 기능을 제공합니다. 코드는 https://github.com/Eliot-Shen/GroupGPT 에서 확인할 수 있습니다.
English
Recent advances in large language models (LLMs) have enabled increasingly capable chatbots. However, most existing systems focus on single-user settings and do not generalize well to multi-user group chats, where agents require more proactive and accurate intervention under complex, evolving contexts. Existing approaches typically rely on LLMs for both reasoning and generation, leading to high token consumption, limited scalability, and potential privacy risks. To address these challenges, we propose GroupGPT, a token-efficient and privacy-preserving agentic framework for multi-user chat assistant. GroupGPT adopts a small-large model collaborative architecture to decouple intervention timing from response generation, enabling efficient and accurate decision-making. The framework also supports multimodal inputs, including memes, images, videos, and voice messages. We further introduce MUIR, a benchmark dataset for multi-user chat assistant intervention reasoning. MUIR contains 2,500 annotated group chat segments with intervention labels and rationales, supporting evaluation of timing accuracy and response quality. We evaluate a range of models on MUIR, from large language models to smaller counterparts. Extensive experiments demonstrate that GroupGPT produces accurate and well-timed responses, achieving an average score of 4.72/5.0 in LLM-based evaluation, and is well received by users across diverse group chat scenarios. Moreover, GroupGPT reduces token usage by up to 3 times compared to baseline methods, while providing privacy sanitization of user messages before cloud transmission. Code is available at: https://github.com/Eliot-Shen/GroupGPT .