GroupGPT: Un framework agentico efficiente nei token e preservante la privacy per assistenti di chat multi-utente
GroupGPT: A Token-efficient and Privacy-preserving Agentic Framework for Multi-User Chat Assistant
March 1, 2026
Autori: Zhuokang Shen, Yifan Wang, Hanyu Chen, Wenxuan Huang, Shaohui Lin
cs.AI
Abstract
I recenti progressi nei grandi modelli linguistici (LLM) hanno reso possibili chatbot sempre più capaci. Tuttavia, la maggior parte dei sistemi esistenti si concentra su ambienti a utente singolo e non si generalizza bene alle chat di gruppo multi-utente, dove gli agenti richiedono un intervento più proattivo e accurato in contesti complessi ed evolutivi. Gli approcci esistenti si basano tipicamente sugli LLM sia per il ragionamento che per la generazione, portando ad un alto consumo di token, una scalabilità limitata e potenziali rischi per la privacy. Per affrontare queste sfide, proponiamo GroupGPT, un framework agentico efficiente in termini di token e preservante la privacy per assistenti di chat multi-utente. GroupGPT adotta un'architettura collaborativa modello piccolo-grande per disaccoppiare la tempistica di intervento dalla generazione della risposta, consentendo un processo decisionale efficiente e accurato. Il framework supporta anche input multimodali, inclusi meme, immagini, video e messaggi vocali. Introduciamo inoltre MUIR, un dataset di benchmark per il ragionamento sull'intervento dell'assistente in chat multi-utente. MUIR contiene 2.500 segmenti di chat di gruppo annotati con etichette di intervento e relative motivazioni, supportando la valutazione dell'accuratezza della tempistica e della qualità della risposta. Valutiamo una serie di modelli su MUIR, dai grandi modelli linguistici alle controparti più piccole. Esperimenti estensivi dimostrano che GroupGPT produce risposte accurate e ben tempestive, raggiungendo un punteggio medio di 4.72/5.0 nella valutazione basata su LLM, ed è ben accolto dagli utenti in vari scenari di chat di gruppo. Inoltre, GroupGPT riduce l'uso dei token fino a 3 volte rispetto ai metodi baseline, fornendo al contempo una sanificazione della privacy dei messaggi utente prima della trasmissione cloud. Il codice è disponibile all'indirizzo: https://github.com/Eliot-Shen/GroupGPT.
English
Recent advances in large language models (LLMs) have enabled increasingly capable chatbots. However, most existing systems focus on single-user settings and do not generalize well to multi-user group chats, where agents require more proactive and accurate intervention under complex, evolving contexts. Existing approaches typically rely on LLMs for both reasoning and generation, leading to high token consumption, limited scalability, and potential privacy risks. To address these challenges, we propose GroupGPT, a token-efficient and privacy-preserving agentic framework for multi-user chat assistant. GroupGPT adopts a small-large model collaborative architecture to decouple intervention timing from response generation, enabling efficient and accurate decision-making. The framework also supports multimodal inputs, including memes, images, videos, and voice messages. We further introduce MUIR, a benchmark dataset for multi-user chat assistant intervention reasoning. MUIR contains 2,500 annotated group chat segments with intervention labels and rationales, supporting evaluation of timing accuracy and response quality. We evaluate a range of models on MUIR, from large language models to smaller counterparts. Extensive experiments demonstrate that GroupGPT produces accurate and well-timed responses, achieving an average score of 4.72/5.0 in LLM-based evaluation, and is well received by users across diverse group chat scenarios. Moreover, GroupGPT reduces token usage by up to 3 times compared to baseline methods, while providing privacy sanitization of user messages before cloud transmission. Code is available at: https://github.com/Eliot-Shen/GroupGPT .