ChatPaper.aiChatPaper

Von Werkzeugen zu Teamkollegen: Bewertung von LLMs in mehrsitzigen Programmierinteraktionen

From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions

February 19, 2025
Autoren: Nathanaël Carraz Rakotonirina, Mohammed Hamdy, Jon Ander Campos, Lucas Weber, Alberto Testoni, Marzieh Fadaee, Sandro Pezzelle, Marco Del Tredici
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) werden zunehmend in Arbeitsumgebungen für eine Vielzahl von Aufgaben eingesetzt und zeichnen sich durch die Lösung individueller Probleme in Isolation aus. Doch sind sie auch in der Lage, effektiv über langfristige Interaktionen hinweg zusammenzuarbeiten? Um dies zu untersuchen, stellen wir MemoryCode vor, einen synthetischen Multi-Session-Datensatz, der entwickelt wurde, um die Fähigkeit von LLMs zu testen, einfache Programmieranweisungen inmitten irrelevanter Informationen zu verfolgen und auszuführen, wodurch eine realistische Umgebung simuliert wird. Während alle von uns getesteten Modelle isolierte Anweisungen gut bewältigen, verschlechtert sich die Leistung selbst bei state-of-the-art-Modellen wie GPT-4o, wenn Anweisungen über mehrere Sitzungen verteilt sind. Unsere Analyse deutet darauf hin, dass dies auf ihr Versagen zurückzuführen ist, Informationen über lange Anweisungsketten hinweg abzurufen und zu integrieren. Unsere Ergebnisse verdeutlichen eine grundlegende Einschränkung aktueller LLMs, die ihre Fähigkeit zur effektiven Zusammenarbeit in langen Interaktionen begrenzt.
English
Large Language Models (LLMs) are increasingly used in working environments for a wide range of tasks, excelling at solving individual problems in isolation. However, are they also able to effectively collaborate over long-term interactions? To investigate this, we introduce MemoryCode, a synthetic multi-session dataset designed to test LLMs' ability to track and execute simple coding instructions amid irrelevant information, simulating a realistic setting. While all the models we tested handle isolated instructions well, even the performance of state-of-the-art models like GPT-4o deteriorates when instructions are spread across sessions. Our analysis suggests this is due to their failure to retrieve and integrate information over long instruction chains. Our results highlight a fundamental limitation of current LLMs, restricting their ability to collaborate effectively in long interactions.

Summary

AI-Generated Summary

PDF53February 20, 2025