ChatPaper.aiChatPaper

Des outils aux coéquipiers : évaluation des LLM dans les interactions de codage multi-sessions

From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions

February 19, 2025
Auteurs: Nathanaël Carraz Rakotonirina, Mohammed Hamdy, Jon Ander Campos, Lucas Weber, Alberto Testoni, Marzieh Fadaee, Sandro Pezzelle, Marco Del Tredici
cs.AI

Résumé

Les modèles de langage de grande taille (LLMs) sont de plus en plus utilisés dans les environnements de travail pour une large gamme de tâches, excellant dans la résolution de problèmes individuels de manière isolée. Cependant, sont-ils également capables de collaborer efficacement sur des interactions à long terme ? Pour explorer cette question, nous introduisons MemoryCode, un ensemble de données synthétique multi-sessions conçu pour tester la capacité des LLMs à suivre et exécuter des instructions de codage simples au milieu d'informations non pertinentes, simulant ainsi un cadre réaliste. Bien que tous les modèles testés gèrent bien les instructions isolées, même la performance des modèles de pointe comme GPT-4o se détériore lorsque les instructions sont réparties sur plusieurs sessions. Notre analyse suggère que cela est dû à leur incapacité à récupérer et intégrer des informations sur de longues chaînes d'instructions. Nos résultats mettent en lumière une limitation fondamentale des LLMs actuels, restreignant leur capacité à collaborer efficacement lors d'interactions prolongées.
English
Large Language Models (LLMs) are increasingly used in working environments for a wide range of tasks, excelling at solving individual problems in isolation. However, are they also able to effectively collaborate over long-term interactions? To investigate this, we introduce MemoryCode, a synthetic multi-session dataset designed to test LLMs' ability to track and execute simple coding instructions amid irrelevant information, simulating a realistic setting. While all the models we tested handle isolated instructions well, even the performance of state-of-the-art models like GPT-4o deteriorates when instructions are spread across sessions. Our analysis suggests this is due to their failure to retrieve and integrate information over long instruction chains. Our results highlight a fundamental limitation of current LLMs, restricting their ability to collaborate effectively in long interactions.
PDF53February 20, 2025