ChatPaper.aiChatPaper

De Ferramentas a Colegas: Avaliando LLMs em Interações de Codificação Multissessão

From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions

February 19, 2025
Autores: Nathanaël Carraz Rakotonirina, Mohammed Hamdy, Jon Ander Campos, Lucas Weber, Alberto Testoni, Marzieh Fadaee, Sandro Pezzelle, Marco Del Tredici
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) estão sendo cada vez mais utilizados em ambientes de trabalho para uma ampla gama de tarefas, destacando-se na resolução de problemas individuais de forma isolada. No entanto, eles também são capazes de colaborar efetivamente em interações de longo prazo? Para investigar isso, apresentamos o MemoryCode, um conjunto de dados sintético multi-sessão projetado para testar a capacidade dos LLMs de rastrear e executar instruções simples de codificação em meio a informações irrelevantes, simulando um cenário realista. Embora todos os modelos testados lidem bem com instruções isoladas, até mesmo o desempenho de modelos de última geração como o GPT-4o se deteriora quando as instruções são distribuídas ao longo de várias sessões. Nossa análise sugere que isso se deve à incapacidade desses modelos de recuperar e integrar informações ao longo de cadeias de instruções longas. Nossos resultados destacam uma limitação fundamental dos LLMs atuais, restringindo sua capacidade de colaborar efetivamente em interações prolongadas.
English
Large Language Models (LLMs) are increasingly used in working environments for a wide range of tasks, excelling at solving individual problems in isolation. However, are they also able to effectively collaborate over long-term interactions? To investigate this, we introduce MemoryCode, a synthetic multi-session dataset designed to test LLMs' ability to track and execute simple coding instructions amid irrelevant information, simulating a realistic setting. While all the models we tested handle isolated instructions well, even the performance of state-of-the-art models like GPT-4o deteriorates when instructions are spread across sessions. Our analysis suggests this is due to their failure to retrieve and integrate information over long instruction chains. Our results highlight a fundamental limitation of current LLMs, restricting their ability to collaborate effectively in long interactions.

Summary

AI-Generated Summary

PDF53February 20, 2025