ChatPaper.aiChatPaper

Van Tools naar Teamgenoten: Evaluatie van LLM's in Multi-Sessie Coderingsinteracties

From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions

February 19, 2025
Auteurs: Nathanaël Carraz Rakotonirina, Mohammed Hamdy, Jon Ander Campos, Lucas Weber, Alberto Testoni, Marzieh Fadaee, Sandro Pezzelle, Marco Del Tredici
cs.AI

Samenvatting

Grote Taalmodellen (LLMs) worden steeds vaker gebruikt in werkomgevingen voor een breed scala aan taken, waarbij ze uitblinken in het oplossen van individuele problemen in isolatie. Maar zijn ze ook in staat om effectief samen te werken tijdens langdurige interacties? Om dit te onderzoeken introduceren we MemoryCode, een synthetische dataset met meerdere sessies die is ontworpen om het vermogen van LLMs te testen om eenvoudige codeerinstructies te volgen en uit te voeren te midden van irrelevante informatie, wat een realistische setting simuleert. Hoewel alle geteste modellen geïsoleerde instructies goed aankunnen, verslechtert zelfs de prestaties van state-of-the-art modellen zoals GPT-4o wanneer instructies over meerdere sessies verspreid zijn. Onze analyse suggereert dat dit komt door hun onvermogen om informatie op te halen en te integreren over lange instructieketens. Onze resultaten benadrukken een fundamentele beperking van huidige LLMs, wat hun vermogen om effectief samen te werken in langdurige interacties beperkt.
English
Large Language Models (LLMs) are increasingly used in working environments for a wide range of tasks, excelling at solving individual problems in isolation. However, are they also able to effectively collaborate over long-term interactions? To investigate this, we introduce MemoryCode, a synthetic multi-session dataset designed to test LLMs' ability to track and execute simple coding instructions amid irrelevant information, simulating a realistic setting. While all the models we tested handle isolated instructions well, even the performance of state-of-the-art models like GPT-4o deteriorates when instructions are spread across sessions. Our analysis suggests this is due to their failure to retrieve and integrate information over long instruction chains. Our results highlight a fundamental limitation of current LLMs, restricting their ability to collaborate effectively in long interactions.

Summary

AI-Generated Summary

PDF53February 20, 2025