TREFFEN DER DELEGIERTE: Benchmarking von LLMs für die Teilnahme an Besprechungen in unserem Auftrag

papers.abstract

In zeitgenössischen Arbeitsumgebungen sind Besprechungen wesentlich für den Austausch von Ideen und die Sicherstellung der Teamausrichtung, stehen jedoch oft vor Herausforderungen wie Zeitverbrauch, Terminüberschneidungen und ineffizienter Beteiligung. Die jüngsten Fortschritte in Large Language Models (LLMs) haben ihre starken Fähigkeiten in der natürlichen Sprachgenerierung und im Schlussfolgern gezeigt, was die Frage aufwirft: Können LLMs Teilnehmer in Besprechungen effektiv delegieren? Um dies zu untersuchen, entwickeln wir ein Prototyp-LLM-gestütztes Besprechungsdelegierungssystem und erstellen einen umfassenden Leistungsmaßstab unter Verwendung echter Besprechungstranskripte. Unsere Bewertung zeigt, dass GPT-4/4o eine ausgewogene Leistung zwischen aktiven und vorsichtigen Engagementstrategien aufrechterhalten. Im Gegensatz dazu neigt Gemini 1.5 Pro dazu, vorsichtiger zu sein, während Gemini 1.5 Flash und Llama3-8B/70B aktivere Tendenzen aufweisen. Insgesamt behandeln etwa 60\% der Antworten mindestens einen Schlüsselpunkt aus der Realität. Es sind jedoch Verbesserungen erforderlich, um irrelevante oder repetitive Inhalte zu reduzieren und die Toleranz gegenüber in realen Umgebungen häufig auftretenden Transkriptionsfehlern zu erhöhen. Darüber hinaus implementieren wir das System in praktischen Umgebungen und sammeln Rückmeldungen aus Demos in der realen Welt. Unsere Ergebnisse unterstreichen das Potenzial und die Herausforderungen bei der Nutzung von LLMs als Besprechungsdelegierte und bieten wertvolle Einblicke in ihre praktische Anwendung zur Linderung der Belastung durch Besprechungen.

English

In contemporary workplaces, meetings are essential for exchanging ideas and ensuring team alignment but often face challenges such as time consumption, scheduling conflicts, and inefficient participation. Recent advancements in Large Language Models (LLMs) have demonstrated their strong capabilities in natural language generation and reasoning, prompting the question: can LLMs effectively delegate participants in meetings? To explore this, we develop a prototype LLM-powered meeting delegate system and create a comprehensive benchmark using real meeting transcripts. Our evaluation reveals that GPT-4/4o maintain balanced performance between active and cautious engagement strategies. In contrast, Gemini 1.5 Pro tends to be more cautious, while Gemini 1.5 Flash and Llama3-8B/70B display more active tendencies. Overall, about 60\% of responses address at least one key point from the ground-truth. However, improvements are needed to reduce irrelevant or repetitive content and enhance tolerance for transcription errors commonly found in real-world settings. Additionally, we implement the system in practical settings and collect real-world feedback from demos. Our findings underscore the potential and challenges of utilizing LLMs as meeting delegates, offering valuable insights into their practical application for alleviating the burden of meetings.

TREFFEN DER DELEGIERTE: Benchmarking von LLMs für die Teilnahme an Besprechungen in unserem Auftrag

MEETING DELEGATE: Benchmarking LLMs on Attending Meetings on Our Behalf

papers.abstract

Support