TREFFEN DER DELEGIERTE: Benchmarking von LLMs für die Teilnahme an Besprechungen in unserem Auftrag
MEETING DELEGATE: Benchmarking LLMs on Attending Meetings on Our Behalf
February 5, 2025
Autoren: Lingxiang Hu, Shurun Yuan, Xiaoting Qin, Jue Zhang, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI
Zusammenfassung
In zeitgenössischen Arbeitsumgebungen sind Besprechungen wesentlich für den Austausch von Ideen und die Sicherstellung der Teamausrichtung, stehen jedoch oft vor Herausforderungen wie Zeitverbrauch, Terminüberschneidungen und ineffizienter Beteiligung. Die jüngsten Fortschritte in Large Language Models (LLMs) haben ihre starken Fähigkeiten in der natürlichen Sprachgenerierung und im Schlussfolgern gezeigt, was die Frage aufwirft: Können LLMs Teilnehmer in Besprechungen effektiv delegieren? Um dies zu untersuchen, entwickeln wir ein Prototyp-LLM-gestütztes Besprechungsdelegierungssystem und erstellen einen umfassenden Leistungsmaßstab unter Verwendung echter Besprechungstranskripte. Unsere Bewertung zeigt, dass GPT-4/4o eine ausgewogene Leistung zwischen aktiven und vorsichtigen Engagementstrategien aufrechterhalten. Im Gegensatz dazu neigt Gemini 1.5 Pro dazu, vorsichtiger zu sein, während Gemini 1.5 Flash und Llama3-8B/70B aktivere Tendenzen aufweisen. Insgesamt behandeln etwa 60\% der Antworten mindestens einen Schlüsselpunkt aus der Realität. Es sind jedoch Verbesserungen erforderlich, um irrelevante oder repetitive Inhalte zu reduzieren und die Toleranz gegenüber in realen Umgebungen häufig auftretenden Transkriptionsfehlern zu erhöhen. Darüber hinaus implementieren wir das System in praktischen Umgebungen und sammeln Rückmeldungen aus Demos in der realen Welt. Unsere Ergebnisse unterstreichen das Potenzial und die Herausforderungen bei der Nutzung von LLMs als Besprechungsdelegierte und bieten wertvolle Einblicke in ihre praktische Anwendung zur Linderung der Belastung durch Besprechungen.
English
In contemporary workplaces, meetings are essential for exchanging ideas and
ensuring team alignment but often face challenges such as time consumption,
scheduling conflicts, and inefficient participation. Recent advancements in
Large Language Models (LLMs) have demonstrated their strong capabilities in
natural language generation and reasoning, prompting the question: can LLMs
effectively delegate participants in meetings? To explore this, we develop a
prototype LLM-powered meeting delegate system and create a comprehensive
benchmark using real meeting transcripts. Our evaluation reveals that GPT-4/4o
maintain balanced performance between active and cautious engagement
strategies. In contrast, Gemini 1.5 Pro tends to be more cautious, while Gemini
1.5 Flash and Llama3-8B/70B display more active tendencies. Overall, about 60\%
of responses address at least one key point from the ground-truth. However,
improvements are needed to reduce irrelevant or repetitive content and enhance
tolerance for transcription errors commonly found in real-world settings.
Additionally, we implement the system in practical settings and collect
real-world feedback from demos. Our findings underscore the potential and
challenges of utilizing LLMs as meeting delegates, offering valuable insights
into their practical application for alleviating the burden of meetings.Summary
AI-Generated Summary