Des outils aux coéquipiers : évaluation des LLM dans les interactions de codage multi-sessions
From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions
February 19, 2025
Auteurs: Nathanaël Carraz Rakotonirina, Mohammed Hamdy, Jon Ander Campos, Lucas Weber, Alberto Testoni, Marzieh Fadaee, Sandro Pezzelle, Marco Del Tredici
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) sont de plus en plus utilisés dans les environnements de travail pour une large gamme de tâches, excellant dans la résolution de problèmes individuels de manière isolée. Cependant, sont-ils également capables de collaborer efficacement sur des interactions à long terme ? Pour explorer cette question, nous introduisons MemoryCode, un ensemble de données synthétique multi-sessions conçu pour tester la capacité des LLMs à suivre et exécuter des instructions de codage simples au milieu d'informations non pertinentes, simulant ainsi un cadre réaliste. Bien que tous les modèles testés gèrent bien les instructions isolées, même la performance des modèles de pointe comme GPT-4o se détériore lorsque les instructions sont réparties sur plusieurs sessions. Notre analyse suggère que cela est dû à leur incapacité à récupérer et intégrer des informations sur de longues chaînes d'instructions. Nos résultats mettent en lumière une limitation fondamentale des LLMs actuels, restreignant leur capacité à collaborer efficacement lors d'interactions prolongées.
English
Large Language Models (LLMs) are increasingly used in working environments
for a wide range of tasks, excelling at solving individual problems in
isolation. However, are they also able to effectively collaborate over
long-term interactions? To investigate this, we introduce MemoryCode, a
synthetic multi-session dataset designed to test LLMs' ability to track and
execute simple coding instructions amid irrelevant information, simulating a
realistic setting. While all the models we tested handle isolated instructions
well, even the performance of state-of-the-art models like GPT-4o deteriorates
when instructions are spread across sessions. Our analysis suggests this is due
to their failure to retrieve and integrate information over long instruction
chains. Our results highlight a fundamental limitation of current LLMs,
restricting their ability to collaborate effectively in long interactions.