De Ferramentas a Colegas: Avaliando LLMs em Interações de Codificação Multissessão
From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions
February 19, 2025
Autores: Nathanaël Carraz Rakotonirina, Mohammed Hamdy, Jon Ander Campos, Lucas Weber, Alberto Testoni, Marzieh Fadaee, Sandro Pezzelle, Marco Del Tredici
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) estão sendo cada vez mais utilizados em ambientes de trabalho para uma ampla gama de tarefas, destacando-se na resolução de problemas individuais de forma isolada. No entanto, eles também são capazes de colaborar efetivamente em interações de longo prazo? Para investigar isso, apresentamos o MemoryCode, um conjunto de dados sintético multi-sessão projetado para testar a capacidade dos LLMs de rastrear e executar instruções simples de codificação em meio a informações irrelevantes, simulando um cenário realista. Embora todos os modelos testados lidem bem com instruções isoladas, até mesmo o desempenho de modelos de última geração como o GPT-4o se deteriora quando as instruções são distribuídas ao longo de várias sessões. Nossa análise sugere que isso se deve à incapacidade desses modelos de recuperar e integrar informações ao longo de cadeias de instruções longas. Nossos resultados destacam uma limitação fundamental dos LLMs atuais, restringindo sua capacidade de colaborar efetivamente em interações prolongadas.
English
Large Language Models (LLMs) are increasingly used in working environments
for a wide range of tasks, excelling at solving individual problems in
isolation. However, are they also able to effectively collaborate over
long-term interactions? To investigate this, we introduce MemoryCode, a
synthetic multi-session dataset designed to test LLMs' ability to track and
execute simple coding instructions amid irrelevant information, simulating a
realistic setting. While all the models we tested handle isolated instructions
well, even the performance of state-of-the-art models like GPT-4o deteriorates
when instructions are spread across sessions. Our analysis suggests this is due
to their failure to retrieve and integrate information over long instruction
chains. Our results highlight a fundamental limitation of current LLMs,
restricting their ability to collaborate effectively in long interactions.Summary
AI-Generated Summary