DELEGADO DE REUNIÓN: Comparación de Modelos de Lenguaje de Gran Escala en la Asistencia a Reuniones en Nuestro Nombre
MEETING DELEGATE: Benchmarking LLMs on Attending Meetings on Our Behalf
February 5, 2025
Autores: Lingxiang Hu, Shurun Yuan, Xiaoting Qin, Jue Zhang, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI
Resumen
En los lugares de trabajo contemporáneos, las reuniones son esenciales para intercambiar ideas y garantizar la alineación del equipo, pero a menudo enfrentan desafíos como el consumo de tiempo, conflictos de programación y una participación ineficiente. Los avances recientes en Modelos de Lenguaje Grande (LLMs) han demostrado sus sólidas capacidades en generación de lenguaje natural y razonamiento, lo que plantea la pregunta: ¿pueden los LLMs delegar efectivamente a los participantes en las reuniones? Para explorar esto, desarrollamos un sistema prototipo de delegado de reuniones impulsado por LLM y creamos un benchmark integral utilizando transcripciones reales de reuniones. Nuestra evaluación revela que GPT-4/4o mantiene un rendimiento equilibrado entre estrategias de participación activa y cautelosa. En contraste, Gemini 1.5 Pro tiende a ser más cauteloso, mientras que Gemini 1.5 Flash y Llama3-8B/70B muestran tendencias más activas. En general, alrededor del 60\% de las respuestas abordan al menos un punto clave de la verdad fundamental. Sin embargo, se necesitan mejoras para reducir el contenido irrelevante o repetitivo y mejorar la tolerancia a los errores de transcripción comúnmente encontrados en entornos del mundo real. Además, implementamos el sistema en entornos prácticos y recopilamos comentarios del mundo real de las demostraciones. Nuestros hallazgos subrayan el potencial y los desafíos de utilizar LLMs como delegados de reuniones, ofreciendo ideas valiosas sobre su aplicación práctica para aliviar la carga de las reuniones.
English
In contemporary workplaces, meetings are essential for exchanging ideas and
ensuring team alignment but often face challenges such as time consumption,
scheduling conflicts, and inefficient participation. Recent advancements in
Large Language Models (LLMs) have demonstrated their strong capabilities in
natural language generation and reasoning, prompting the question: can LLMs
effectively delegate participants in meetings? To explore this, we develop a
prototype LLM-powered meeting delegate system and create a comprehensive
benchmark using real meeting transcripts. Our evaluation reveals that GPT-4/4o
maintain balanced performance between active and cautious engagement
strategies. In contrast, Gemini 1.5 Pro tends to be more cautious, while Gemini
1.5 Flash and Llama3-8B/70B display more active tendencies. Overall, about 60\%
of responses address at least one key point from the ground-truth. However,
improvements are needed to reduce irrelevant or repetitive content and enhance
tolerance for transcription errors commonly found in real-world settings.
Additionally, we implement the system in practical settings and collect
real-world feedback from demos. Our findings underscore the potential and
challenges of utilizing LLMs as meeting delegates, offering valuable insights
into their practical application for alleviating the burden of meetings.Summary
AI-Generated Summary