DELEGATEN BIJEENKOMST: Benchmarking LLM's bij het bijwonen van vergaderingen namens ons
MEETING DELEGATE: Benchmarking LLMs on Attending Meetings on Our Behalf
February 5, 2025
Auteurs: Lingxiang Hu, Shurun Yuan, Xiaoting Qin, Jue Zhang, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI
Samenvatting
In hedendaagse werkplekken zijn vergaderingen essentieel voor het uitwisselen van ideeën en het waarborgen van teamafstemming, maar ze worden vaak geconfronteerd met uitdagingen zoals tijdsverbruik, planning conflicten en inefficiënte deelname. Recente ontwikkelingen in Grote Taalmodellen (LLM's) hebben hun sterke mogelijkheden aangetoond op het gebied van natuurlijke taalgeneratie en redenering, wat de vraag oproept: kunnen LLM's effectief deelnemers delegeren in vergaderingen? Om dit te onderzoeken, ontwikkelen we een prototype LLM-aangedreven vergadersysteem en creëren we een uitgebreide benchmark met behulp van echte vergadertranscripties. Onze evaluatie onthult dat GPT-4/4o een gebalanceerde prestatie behouden tussen actieve en voorzichtige betrokkenheidsstrategieën. In tegenstelling hiermee neigt Gemini 1.5 Pro voorzichtiger te zijn, terwijl Gemini 1.5 Flash en Llama3-8B/70B meer actieve neigingen vertonen. Over het algemeen behandelt ongeveer 60\% van de reacties minstens één sleutelpunt uit de werkelijke situatie. Er zijn echter verbeteringen nodig om irrelevante of repetitieve inhoud te verminderen en de tolerantie voor transcriptiefouten die vaak voorkomen in realistische omgevingen te verbeteren. Bovendien implementeren we het systeem in praktische omgevingen en verzamelen we feedback uit de praktijkdemonstraties. Onze bevindingen benadrukken het potentieel en de uitdagingen van het gebruik van LLM's als vergaderdelegates, en bieden waardevolle inzichten in hun praktische toepassing om de last van vergaderingen te verlichten.
English
In contemporary workplaces, meetings are essential for exchanging ideas and
ensuring team alignment but often face challenges such as time consumption,
scheduling conflicts, and inefficient participation. Recent advancements in
Large Language Models (LLMs) have demonstrated their strong capabilities in
natural language generation and reasoning, prompting the question: can LLMs
effectively delegate participants in meetings? To explore this, we develop a
prototype LLM-powered meeting delegate system and create a comprehensive
benchmark using real meeting transcripts. Our evaluation reveals that GPT-4/4o
maintain balanced performance between active and cautious engagement
strategies. In contrast, Gemini 1.5 Pro tends to be more cautious, while Gemini
1.5 Flash and Llama3-8B/70B display more active tendencies. Overall, about 60\%
of responses address at least one key point from the ground-truth. However,
improvements are needed to reduce irrelevant or repetitive content and enhance
tolerance for transcription errors commonly found in real-world settings.
Additionally, we implement the system in practical settings and collect
real-world feedback from demos. Our findings underscore the potential and
challenges of utilizing LLMs as meeting delegates, offering valuable insights
into their practical application for alleviating the burden of meetings.Summary
AI-Generated Summary