Von Werkzeugen zu Teamkollegen: Bewertung von LLMs in mehrsitzigen Programmierinteraktionen
From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions
February 19, 2025
Autoren: Nathanaël Carraz Rakotonirina, Mohammed Hamdy, Jon Ander Campos, Lucas Weber, Alberto Testoni, Marzieh Fadaee, Sandro Pezzelle, Marco Del Tredici
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) werden zunehmend in Arbeitsumgebungen für eine Vielzahl von Aufgaben eingesetzt und zeichnen sich durch die Lösung individueller Probleme in Isolation aus. Doch sind sie auch in der Lage, effektiv über langfristige Interaktionen hinweg zusammenzuarbeiten? Um dies zu untersuchen, stellen wir MemoryCode vor, einen synthetischen Multi-Session-Datensatz, der entwickelt wurde, um die Fähigkeit von LLMs zu testen, einfache Programmieranweisungen inmitten irrelevanter Informationen zu verfolgen und auszuführen, wodurch eine realistische Umgebung simuliert wird. Während alle von uns getesteten Modelle isolierte Anweisungen gut bewältigen, verschlechtert sich die Leistung selbst bei state-of-the-art-Modellen wie GPT-4o, wenn Anweisungen über mehrere Sitzungen verteilt sind. Unsere Analyse deutet darauf hin, dass dies auf ihr Versagen zurückzuführen ist, Informationen über lange Anweisungsketten hinweg abzurufen und zu integrieren. Unsere Ergebnisse verdeutlichen eine grundlegende Einschränkung aktueller LLMs, die ihre Fähigkeit zur effektiven Zusammenarbeit in langen Interaktionen begrenzt.
English
Large Language Models (LLMs) are increasingly used in working environments
for a wide range of tasks, excelling at solving individual problems in
isolation. However, are they also able to effectively collaborate over
long-term interactions? To investigate this, we introduce MemoryCode, a
synthetic multi-session dataset designed to test LLMs' ability to track and
execute simple coding instructions amid irrelevant information, simulating a
realistic setting. While all the models we tested handle isolated instructions
well, even the performance of state-of-the-art models like GPT-4o deteriorates
when instructions are spread across sessions. Our analysis suggests this is due
to their failure to retrieve and integrate information over long instruction
chains. Our results highlight a fundamental limitation of current LLMs,
restricting their ability to collaborate effectively in long interactions.Summary
AI-Generated Summary