GroupGPT: Uma Estrutura de Agentes Eficiente em Tokens e Preservadora de Privacidade para Assistente de Chat Multiutilizador

Resumo

Os recentes avanços em grandes modelos de linguagem (LLMs) têm possibilitado chatbots cada vez mais capazes. No entanto, a maioria dos sistemas existentes concentra-se em ambientes de utilizador único e não generaliza bem para conversas de grupo multiutilizador, onde os agentes requerem uma intervenção mais proativa e precisa em contextos complexos e em evolução. As abordagens existentes geralmente dependem de LLMs tanto para o raciocínio quanto para a geração, levando a um alto consumo de *tokens*, escalabilidade limitada e potenciais riscos de privacidade. Para enfrentar estes desafios, propomos o GroupGPT, um quadro agencial eficiente em *tokens* e que preserva a privacidade para assistentes de conversação multiutilizador. O GroupGPT adota uma arquitetura colaborativa de modelos pequenos e grandes para desacoplar o momento da intervenção da geração de respostas, permitindo uma tomada de decisão eficiente e precisa. O quadro também suporta entradas multimodais, incluindo *memes*, imagens, vídeos e mensagens de voz. Introduzimos ainda o MUIR, um conjunto de dados de referência para o raciocínio de intervenção de assistentes de conversação multiutilizador. O MUIR contém 2.500 segmentos de conversas de grupo anotados com etiquetas de intervenção e respetivas razões, suportando a avaliação da precisão temporal e da qualidade da resposta. Avaliamos uma variedade de modelos no MUIR, desde grandes modelos de linguagem até versões mais pequenas. Experiências extensivas demonstram que o GroupGPT produz respostas precisas e bem temporizadas, alcançando uma pontuação média de 4,72/5,0 na avaliação baseada em LLM, e é bem recebido pelos utilizadores em diversos cenários de conversação de grupo. Além disso, o GroupGPT reduz o uso de *tokens* até 3 vezes em comparação com métodos de base, fornecendo simultaneamente uma sanitização da privacidade das mensagens dos utilizadores antes da transmissão para a nuvem. O código está disponível em: https://github.com/Eliot-Shen/GroupGPT.

English

Recent advances in large language models (LLMs) have enabled increasingly capable chatbots. However, most existing systems focus on single-user settings and do not generalize well to multi-user group chats, where agents require more proactive and accurate intervention under complex, evolving contexts. Existing approaches typically rely on LLMs for both reasoning and generation, leading to high token consumption, limited scalability, and potential privacy risks. To address these challenges, we propose GroupGPT, a token-efficient and privacy-preserving agentic framework for multi-user chat assistant. GroupGPT adopts a small-large model collaborative architecture to decouple intervention timing from response generation, enabling efficient and accurate decision-making. The framework also supports multimodal inputs, including memes, images, videos, and voice messages. We further introduce MUIR, a benchmark dataset for multi-user chat assistant intervention reasoning. MUIR contains 2,500 annotated group chat segments with intervention labels and rationales, supporting evaluation of timing accuracy and response quality. We evaluate a range of models on MUIR, from large language models to smaller counterparts. Extensive experiments demonstrate that GroupGPT produces accurate and well-timed responses, achieving an average score of 4.72/5.0 in LLM-based evaluation, and is well received by users across diverse group chat scenarios. Moreover, GroupGPT reduces token usage by up to 3 times compared to baseline methods, while providing privacy sanitization of user messages before cloud transmission. Code is available at: https://github.com/Eliot-Shen/GroupGPT .