ChatPaper.aiChatPaper

От инструментов к коллегам: оценка языковых моделей в многосессионных взаимодействиях при программировании

From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions

February 19, 2025
Авторы: Nathanaël Carraz Rakotonirina, Mohammed Hamdy, Jon Ander Campos, Lucas Weber, Alberto Testoni, Marzieh Fadaee, Sandro Pezzelle, Marco Del Tredici
cs.AI

Аннотация

Крупные языковые модели (LLM) всё чаще используются в рабочих средах для решения широкого круга задач, демонстрируя высокую эффективность в решении отдельных изолированных проблем. Однако способны ли они также эффективно сотрудничать в долгосрочных взаимодействиях? Чтобы исследовать этот вопрос, мы представляем MemoryCode — синтетический набор данных для многосессионного тестирования, предназначенный для проверки способности LLM отслеживать и выполнять простые инструкции по кодированию в условиях наличия нерелевантной информации, что имитирует реалистичную среду. Хотя все протестированные модели хорошо справляются с изолированными инструкциями, даже производительность передовых моделей, таких как GPT-4o, ухудшается, когда инструкции распределены между сессиями. Наш анализ показывает, что это связано с их неспособностью извлекать и интегрировать информацию в длинных цепочках инструкций. Результаты подчеркивают фундаментальное ограничение современных LLM, которое ограничивает их способность эффективно сотрудничать в долгосрочных взаимодействиях.
English
Large Language Models (LLMs) are increasingly used in working environments for a wide range of tasks, excelling at solving individual problems in isolation. However, are they also able to effectively collaborate over long-term interactions? To investigate this, we introduce MemoryCode, a synthetic multi-session dataset designed to test LLMs' ability to track and execute simple coding instructions amid irrelevant information, simulating a realistic setting. While all the models we tested handle isolated instructions well, even the performance of state-of-the-art models like GPT-4o deteriorates when instructions are spread across sessions. Our analysis suggests this is due to their failure to retrieve and integrate information over long instruction chains. Our results highlight a fundamental limitation of current LLMs, restricting their ability to collaborate effectively in long interactions.

Summary

AI-Generated Summary

PDF53February 20, 2025