De Ferramentas a Colegas: Avaliando LLMs em Interações de Codificação Multissessão

Resumo

Modelos de Linguagem de Grande Escala (LLMs) estão sendo cada vez mais utilizados em ambientes de trabalho para uma ampla gama de tarefas, destacando-se na resolução de problemas individuais de forma isolada. No entanto, eles também são capazes de colaborar efetivamente em interações de longo prazo? Para investigar isso, apresentamos o MemoryCode, um conjunto de dados sintético multi-sessão projetado para testar a capacidade dos LLMs de rastrear e executar instruções simples de codificação em meio a informações irrelevantes, simulando um cenário realista. Embora todos os modelos testados lidem bem com instruções isoladas, até mesmo o desempenho de modelos de última geração como o GPT-4o se deteriora quando as instruções são distribuídas ao longo de várias sessões. Nossa análise sugere que isso se deve à incapacidade desses modelos de recuperar e integrar informações ao longo de cadeias de instruções longas. Nossos resultados destacam uma limitação fundamental dos LLMs atuais, restringindo sua capacidade de colaborar efetivamente em interações prolongadas.

English

Large Language Models (LLMs) are increasingly used in working environments for a wide range of tasks, excelling at solving individual problems in isolation. However, are they also able to effectively collaborate over long-term interactions? To investigate this, we introduce MemoryCode, a synthetic multi-session dataset designed to test LLMs' ability to track and execute simple coding instructions amid irrelevant information, simulating a realistic setting. While all the models we tested handle isolated instructions well, even the performance of state-of-the-art models like GPT-4o deteriorates when instructions are spread across sessions. Our analysis suggests this is due to their failure to retrieve and integrate information over long instruction chains. Our results highlight a fundamental limitation of current LLMs, restricting their ability to collaborate effectively in long interactions.

De Ferramentas a Colegas: Avaliando LLMs em Interações de Codificação Multissessão

From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions

Resumo

Support