Van Tools naar Teamgenoten: Evaluatie van LLM's in Multi-Sessie Coderingsinteracties
From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions
February 19, 2025
Auteurs: Nathanaël Carraz Rakotonirina, Mohammed Hamdy, Jon Ander Campos, Lucas Weber, Alberto Testoni, Marzieh Fadaee, Sandro Pezzelle, Marco Del Tredici
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) worden steeds vaker gebruikt in werkomgevingen voor een breed scala aan taken, waarbij ze uitblinken in het oplossen van individuele problemen in isolatie. Maar zijn ze ook in staat om effectief samen te werken tijdens langdurige interacties? Om dit te onderzoeken introduceren we MemoryCode, een synthetische dataset met meerdere sessies die is ontworpen om het vermogen van LLMs te testen om eenvoudige codeerinstructies te volgen en uit te voeren te midden van irrelevante informatie, wat een realistische setting simuleert. Hoewel alle geteste modellen geïsoleerde instructies goed aankunnen, verslechtert zelfs de prestaties van state-of-the-art modellen zoals GPT-4o wanneer instructies over meerdere sessies verspreid zijn. Onze analyse suggereert dat dit komt door hun onvermogen om informatie op te halen en te integreren over lange instructieketens. Onze resultaten benadrukken een fundamentele beperking van huidige LLMs, wat hun vermogen om effectief samen te werken in langdurige interacties beperkt.
English
Large Language Models (LLMs) are increasingly used in working environments
for a wide range of tasks, excelling at solving individual problems in
isolation. However, are they also able to effectively collaborate over
long-term interactions? To investigate this, we introduce MemoryCode, a
synthetic multi-session dataset designed to test LLMs' ability to track and
execute simple coding instructions amid irrelevant information, simulating a
realistic setting. While all the models we tested handle isolated instructions
well, even the performance of state-of-the-art models like GPT-4o deteriorates
when instructions are spread across sessions. Our analysis suggests this is due
to their failure to retrieve and integrate information over long instruction
chains. Our results highlight a fundamental limitation of current LLMs,
restricting their ability to collaborate effectively in long interactions.Summary
AI-Generated Summary