ChatPaper.aiChatPaper

Da Strumenti a Compagni di Squadra: Valutazione dei Modelli Linguistici di Grandi Dimensioni nelle Interazioni di Programmazione Multi-Sessione

From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions

February 19, 2025
Autori: Nathanaël Carraz Rakotonirina, Mohammed Hamdy, Jon Ander Campos, Lucas Weber, Alberto Testoni, Marzieh Fadaee, Sandro Pezzelle, Marco Del Tredici
cs.AI

Abstract

I Large Language Model (LLM) sono sempre più utilizzati in ambienti lavorativi per una vasta gamma di attività, dimostrando eccellenti capacità nel risolvere problemi individuali in isolamento. Tuttavia, sono anche in grado di collaborare efficacemente in interazioni a lungo termine? Per indagare questa questione, introduciamo MemoryCode, un dataset sintetico multi-sessione progettato per testare la capacità degli LLM di tracciare ed eseguire semplici istruzioni di codifica in mezzo a informazioni irrilevanti, simulando un contesto realistico. Mentre tutti i modelli testati gestiscono bene le istruzioni isolate, anche le prestazioni di modelli all'avanguardia come GPT-4o si deteriorano quando le istruzioni sono distribuite su più sessioni. La nostra analisi suggerisce che ciò sia dovuto alla loro incapacità di recuperare e integrare informazioni su catene di istruzioni lunghe. I nostri risultati evidenziano una limitazione fondamentale degli attuali LLM, che ne restringe la capacità di collaborare efficacemente in interazioni prolungate.
English
Large Language Models (LLMs) are increasingly used in working environments for a wide range of tasks, excelling at solving individual problems in isolation. However, are they also able to effectively collaborate over long-term interactions? To investigate this, we introduce MemoryCode, a synthetic multi-session dataset designed to test LLMs' ability to track and execute simple coding instructions amid irrelevant information, simulating a realistic setting. While all the models we tested handle isolated instructions well, even the performance of state-of-the-art models like GPT-4o deteriorates when instructions are spread across sessions. Our analysis suggests this is due to their failure to retrieve and integrate information over long instruction chains. Our results highlight a fundamental limitation of current LLMs, restricting their ability to collaborate effectively in long interactions.

Summary

AI-Generated Summary

PDF53February 20, 2025