ChatPaper.aiChatPaper

De Herramientas a Compañeros de Equipo: Evaluación de Modelos de Lenguaje en Interacciones de Codificación Multisesión

From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions

February 19, 2025
Autores: Nathanaël Carraz Rakotonirina, Mohammed Hamdy, Jon Ander Campos, Lucas Weber, Alberto Testoni, Marzieh Fadaee, Sandro Pezzelle, Marco Del Tredici
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se utilizan cada vez más en entornos laborales para una amplia gama de tareas, destacándose en la resolución de problemas individuales de forma aislada. Sin embargo, ¿son también capaces de colaborar de manera efectiva en interacciones a largo plazo? Para investigar esto, presentamos MemoryCode, un conjunto de datos sintético de múltiples sesiones diseñado para evaluar la capacidad de los LLMs de rastrear y ejecutar instrucciones simples de codificación en medio de información irrelevante, simulando un entorno realista. Si bien todos los modelos que probamos manejan bien las instrucciones aisladas, incluso el rendimiento de modelos de vanguardia como GPT-4o se deteriora cuando las instrucciones se distribuyen en varias sesiones. Nuestro análisis sugiere que esto se debe a su incapacidad para recuperar e integrar información a lo largo de cadenas de instrucciones extensas. Nuestros resultados destacan una limitación fundamental de los LLMs actuales, que restringe su capacidad para colaborar de manera efectiva en interacciones prolongadas.
English
Large Language Models (LLMs) are increasingly used in working environments for a wide range of tasks, excelling at solving individual problems in isolation. However, are they also able to effectively collaborate over long-term interactions? To investigate this, we introduce MemoryCode, a synthetic multi-session dataset designed to test LLMs' ability to track and execute simple coding instructions amid irrelevant information, simulating a realistic setting. While all the models we tested handle isolated instructions well, even the performance of state-of-the-art models like GPT-4o deteriorates when instructions are spread across sessions. Our analysis suggests this is due to their failure to retrieve and integrate information over long instruction chains. Our results highlight a fundamental limitation of current LLMs, restricting their ability to collaborate effectively in long interactions.

Summary

AI-Generated Summary

PDF53February 20, 2025