ChatPaper.aiChatPaper

УЧАСТНИК СОБРАНИЯ: Сравнение LLM-моделей по участию в собраниях от нашего имени

MEETING DELEGATE: Benchmarking LLMs on Attending Meetings on Our Behalf

February 5, 2025
Авторы: Lingxiang Hu, Shurun Yuan, Xiaoting Qin, Jue Zhang, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI

Аннотация

В современных рабочих местах встречи являются неотъемлемой частью обмена идеями и обеспечения выравнивания команды, но часто сталкиваются с проблемами, такими как затраты времени, конфликты в расписании и неэффективное участие. Недавние достижения в области Больших Языковых Моделей (БЯМ) продемонстрировали их сильные возможности в генерации естественного языка и рассуждения, порождая вопрос: могут ли БЯМ эффективно делегировать участников на встречах? Для исследования этого вопроса мы разрабатываем прототип системы делегирования на встречах, работающей на основе БЯМ, и создаем комплексный бенчмарк, используя реальные транскрипты встреч. Наша оценка показывает, что GPT-4/4o сохраняют сбалансированную производительность между активными и осторожными стратегиями вовлеченности. В отличие от этого, Gemini 1.5 Pro склонен к более осторожному поведению, в то время как Gemini 1.5 Flash и Llama3-8B/70B проявляют более активные тенденции. В целом, около 60\% ответов содержат хотя бы один ключевой момент из исходной информации. Однако требуются улучшения для сокращения несвязанного или повторяющегося контента и увеличения терпимости к ошибкам транскрипции, которые часто встречаются в реальных условиях. Кроме того, мы реализуем систему в практических условиях и собираем обратную связь из реальных демонстраций. Наши результаты подчеркивают потенциал и вызовы использования БЯМ в качестве делегатов на встречах, предлагая ценные идеи для их практического применения для смягчения бремени встреч.
English
In contemporary workplaces, meetings are essential for exchanging ideas and ensuring team alignment but often face challenges such as time consumption, scheduling conflicts, and inefficient participation. Recent advancements in Large Language Models (LLMs) have demonstrated their strong capabilities in natural language generation and reasoning, prompting the question: can LLMs effectively delegate participants in meetings? To explore this, we develop a prototype LLM-powered meeting delegate system and create a comprehensive benchmark using real meeting transcripts. Our evaluation reveals that GPT-4/4o maintain balanced performance between active and cautious engagement strategies. In contrast, Gemini 1.5 Pro tends to be more cautious, while Gemini 1.5 Flash and Llama3-8B/70B display more active tendencies. Overall, about 60\% of responses address at least one key point from the ground-truth. However, improvements are needed to reduce irrelevant or repetitive content and enhance tolerance for transcription errors commonly found in real-world settings. Additionally, we implement the system in practical settings and collect real-world feedback from demos. Our findings underscore the potential and challenges of utilizing LLMs as meeting delegates, offering valuable insights into their practical application for alleviating the burden of meetings.

Summary

AI-Generated Summary

PDF33February 10, 2025