ChatPaper.aiChatPaper

DÉLÉGUÉ DE RÉUNION : Évaluation comparative des LLM pour assister à des réunions en notre nom

MEETING DELEGATE: Benchmarking LLMs on Attending Meetings on Our Behalf

February 5, 2025
Auteurs: Lingxiang Hu, Shurun Yuan, Xiaoting Qin, Jue Zhang, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI

Résumé

Dans les lieux de travail contemporains, les réunions sont essentielles pour échanger des idées et assurer l'alignement des équipes, mais elles sont souvent confrontées à des défis tels que la consommation de temps, les conflits d'emploi du temps et une participation inefficace. Les récents progrès des Grands Modèles de Langage (GML) ont démontré leurs fortes capacités en génération de langage naturel et raisonnement, suscitant la question : les GML peuvent-ils déléguer efficacement les participants aux réunions ? Pour explorer cette question, nous avons développé un système de délégation de réunions alimenté par un GML et créé un benchmark complet en utilisant de vrais transcriptions de réunions. Notre évaluation révèle que GPT-4/4o maintiennent des performances équilibrées entre des stratégies d'engagement actif et prudent. En revanche, Gemini 1.5 Pro a tendance à être plus prudent, tandis que Gemini 1.5 Flash et Llama3-8B/70B affichent des tendances plus actives. Globalement, environ 60\% des réponses abordent au moins un point clé de la vérité terrain. Cependant, des améliorations sont nécessaires pour réduire le contenu non pertinent ou répétitif et renforcer la tolérance aux erreurs de transcription couramment rencontrées dans des environnements réels. De plus, nous mettons en œuvre le système dans des environnements pratiques et recueillons des retours d'expérience réels à partir de démonstrations. Nos résultats soulignent le potentiel et les défis de l'utilisation des GML en tant que délégués de réunions, offrant des perspectives précieuses sur leur application pratique pour alléger la charge des réunions.
English
In contemporary workplaces, meetings are essential for exchanging ideas and ensuring team alignment but often face challenges such as time consumption, scheduling conflicts, and inefficient participation. Recent advancements in Large Language Models (LLMs) have demonstrated their strong capabilities in natural language generation and reasoning, prompting the question: can LLMs effectively delegate participants in meetings? To explore this, we develop a prototype LLM-powered meeting delegate system and create a comprehensive benchmark using real meeting transcripts. Our evaluation reveals that GPT-4/4o maintain balanced performance between active and cautious engagement strategies. In contrast, Gemini 1.5 Pro tends to be more cautious, while Gemini 1.5 Flash and Llama3-8B/70B display more active tendencies. Overall, about 60\% of responses address at least one key point from the ground-truth. However, improvements are needed to reduce irrelevant or repetitive content and enhance tolerance for transcription errors commonly found in real-world settings. Additionally, we implement the system in practical settings and collect real-world feedback from demos. Our findings underscore the potential and challenges of utilizing LLMs as meeting delegates, offering valuable insights into their practical application for alleviating the burden of meetings.

Summary

AI-Generated Summary

PDF33February 10, 2025