ツールからチームメイトへ:マルチセッションコーディングインタラクションにおけるLLMの評価
From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions
February 19, 2025
著者: Nathanaël Carraz Rakotonirina, Mohammed Hamdy, Jon Ander Campos, Lucas Weber, Alberto Testoni, Marzieh Fadaee, Sandro Pezzelle, Marco Del Tredici
cs.AI
要旨
大規模言語モデル(LLMs)は、職場環境において幅広いタスクに使用されるようになり、個別の問題を単独で解決する能力に優れています。しかし、長期的な相互作用においても効果的に協力できるのでしょうか?これを調査するため、私たちはMemoryCodeを導入しました。これは、LLMsが無関係な情報の中から単純なコーディング指示を追跡し実行する能力をテストするために設計された、合成マルチセッションデータセットです。これにより、現実的な設定をシミュレートしています。テストしたすべてのモデルは、個別の指示をうまく処理しますが、GPT-4oのような最先端のモデルでさえ、指示がセッションにまたがる場合には性能が低下します。私たちの分析によると、これは長い指示チェーンにわたる情報の検索と統合に失敗するためです。この結果は、現在のLLMsの基本的な限界を示しており、長期的な相互作用において効果的に協力する能力を制限していることが明らかになりました。
English
Large Language Models (LLMs) are increasingly used in working environments
for a wide range of tasks, excelling at solving individual problems in
isolation. However, are they also able to effectively collaborate over
long-term interactions? To investigate this, we introduce MemoryCode, a
synthetic multi-session dataset designed to test LLMs' ability to track and
execute simple coding instructions amid irrelevant information, simulating a
realistic setting. While all the models we tested handle isolated instructions
well, even the performance of state-of-the-art models like GPT-4o deteriorates
when instructions are spread across sessions. Our analysis suggests this is due
to their failure to retrieve and integrate information over long instruction
chains. Our results highlight a fundamental limitation of current LLMs,
restricting their ability to collaborate effectively in long interactions.Summary
AI-Generated Summary