DÉLÉGUÉ DE RÉUNION : Évaluation comparative des LLM pour assister à des réunions en notre nom
MEETING DELEGATE: Benchmarking LLMs on Attending Meetings on Our Behalf
February 5, 2025
Auteurs: Lingxiang Hu, Shurun Yuan, Xiaoting Qin, Jue Zhang, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI
Résumé
Dans les lieux de travail contemporains, les réunions sont essentielles pour échanger des idées et assurer l'alignement des équipes, mais elles sont souvent confrontées à des défis tels que la consommation de temps, les conflits d'emploi du temps et une participation inefficace. Les récents progrès des Grands Modèles de Langage (GML) ont démontré leurs fortes capacités en génération de langage naturel et raisonnement, suscitant la question : les GML peuvent-ils déléguer efficacement les participants aux réunions ? Pour explorer cette question, nous avons développé un système de délégation de réunions alimenté par un GML et créé un benchmark complet en utilisant de vrais transcriptions de réunions. Notre évaluation révèle que GPT-4/4o maintiennent des performances équilibrées entre des stratégies d'engagement actif et prudent. En revanche, Gemini 1.5 Pro a tendance à être plus prudent, tandis que Gemini 1.5 Flash et Llama3-8B/70B affichent des tendances plus actives. Globalement, environ 60\% des réponses abordent au moins un point clé de la vérité terrain. Cependant, des améliorations sont nécessaires pour réduire le contenu non pertinent ou répétitif et renforcer la tolérance aux erreurs de transcription couramment rencontrées dans des environnements réels. De plus, nous mettons en œuvre le système dans des environnements pratiques et recueillons des retours d'expérience réels à partir de démonstrations. Nos résultats soulignent le potentiel et les défis de l'utilisation des GML en tant que délégués de réunions, offrant des perspectives précieuses sur leur application pratique pour alléger la charge des réunions.
English
In contemporary workplaces, meetings are essential for exchanging ideas and
ensuring team alignment but often face challenges such as time consumption,
scheduling conflicts, and inefficient participation. Recent advancements in
Large Language Models (LLMs) have demonstrated their strong capabilities in
natural language generation and reasoning, prompting the question: can LLMs
effectively delegate participants in meetings? To explore this, we develop a
prototype LLM-powered meeting delegate system and create a comprehensive
benchmark using real meeting transcripts. Our evaluation reveals that GPT-4/4o
maintain balanced performance between active and cautious engagement
strategies. In contrast, Gemini 1.5 Pro tends to be more cautious, while Gemini
1.5 Flash and Llama3-8B/70B display more active tendencies. Overall, about 60\%
of responses address at least one key point from the ground-truth. However,
improvements are needed to reduce irrelevant or repetitive content and enhance
tolerance for transcription errors commonly found in real-world settings.
Additionally, we implement the system in practical settings and collect
real-world feedback from demos. Our findings underscore the potential and
challenges of utilizing LLMs as meeting delegates, offering valuable insights
into their practical application for alleviating the burden of meetings.Summary
AI-Generated Summary