DELEGADO DE REUNIÓN: Comparación de Modelos de Lenguaje de Gran Escala en la Asistencia a Reuniones en Nuestro Nombre

Resumen

En los lugares de trabajo contemporáneos, las reuniones son esenciales para intercambiar ideas y garantizar la alineación del equipo, pero a menudo enfrentan desafíos como el consumo de tiempo, conflictos de programación y una participación ineficiente. Los avances recientes en Modelos de Lenguaje Grande (LLMs) han demostrado sus sólidas capacidades en generación de lenguaje natural y razonamiento, lo que plantea la pregunta: ¿pueden los LLMs delegar efectivamente a los participantes en las reuniones? Para explorar esto, desarrollamos un sistema prototipo de delegado de reuniones impulsado por LLM y creamos un benchmark integral utilizando transcripciones reales de reuniones. Nuestra evaluación revela que GPT-4/4o mantiene un rendimiento equilibrado entre estrategias de participación activa y cautelosa. En contraste, Gemini 1.5 Pro tiende a ser más cauteloso, mientras que Gemini 1.5 Flash y Llama3-8B/70B muestran tendencias más activas. En general, alrededor del 60\% de las respuestas abordan al menos un punto clave de la verdad fundamental. Sin embargo, se necesitan mejoras para reducir el contenido irrelevante o repetitivo y mejorar la tolerancia a los errores de transcripción comúnmente encontrados en entornos del mundo real. Además, implementamos el sistema en entornos prácticos y recopilamos comentarios del mundo real de las demostraciones. Nuestros hallazgos subrayan el potencial y los desafíos de utilizar LLMs como delegados de reuniones, ofreciendo ideas valiosas sobre su aplicación práctica para aliviar la carga de las reuniones.

English

In contemporary workplaces, meetings are essential for exchanging ideas and ensuring team alignment but often face challenges such as time consumption, scheduling conflicts, and inefficient participation. Recent advancements in Large Language Models (LLMs) have demonstrated their strong capabilities in natural language generation and reasoning, prompting the question: can LLMs effectively delegate participants in meetings? To explore this, we develop a prototype LLM-powered meeting delegate system and create a comprehensive benchmark using real meeting transcripts. Our evaluation reveals that GPT-4/4o maintain balanced performance between active and cautious engagement strategies. In contrast, Gemini 1.5 Pro tends to be more cautious, while Gemini 1.5 Flash and Llama3-8B/70B display more active tendencies. Overall, about 60\% of responses address at least one key point from the ground-truth. However, improvements are needed to reduce irrelevant or repetitive content and enhance tolerance for transcription errors commonly found in real-world settings. Additionally, we implement the system in practical settings and collect real-world feedback from demos. Our findings underscore the potential and challenges of utilizing LLMs as meeting delegates, offering valuable insights into their practical application for alleviating the burden of meetings.

DELEGADO DE REUNIÓN: Comparación de Modelos de Lenguaje de Gran Escala en la Asistencia a Reuniones en Nuestro Nombre

MEETING DELEGATE: Benchmarking LLMs on Attending Meetings on Our Behalf

Resumen

Support