ChatPaper.aiChatPaper

CooperBench: なぜコーディングエージェントはまだチームメイトになれないのか

CooperBench: Why Coding Agents Cannot be Your Teammates Yet

January 19, 2026
著者: Arpandeep Khatua, Hao Zhu, Peter Tran, Arya Prabhudesai, Frederic Sadrieh, Johann K. Lieberwirth, Xinkai Yu, Yicheng Fu, Michael J. Ryan, Jiaxin Pei, Diyi Yang
cs.AI

要旨

チーム紛争の解決には、タスク固有の能力だけでなく、共通基盤を見出し合意形成を図る社会的知性が不可欠である。AIエージェントが複雑な作業で協働する機会が増える中、効果的なチームメンバーとして機能するためには調整能力の習得が必須となる。しかし我々は、現状のエージェントにはこの能力が欠けていると仮説を立てた。これを検証するため、4つのプログラミング言語における12のライブラリにわたる600以上の協調的コーディング課題からなるベンチマーク「CooperBench」を開発した。各課題では、2つのエージェントに独立実装可能だが調整不足で衝突し得る異なる機能を割り当てる。課題は専門家が作成したテスト付きの実際のオープンソースリポジトリに基づく。最先端のコーディングエージェントを評価した結果、調整の呪いと呼ばれる現象を確認した:エージェントは協働時の成功率が、両タスクを単独で実行した場合に比べ平均30%低下した。これはチームメンバー追加で生産性が向上する人間のチームと著しい対照をなす。分析により3つの主要課題が明らかになった:(1) 曖昧・タイミング不良・不正確なメッセージによる通信路の渋滞、(2) 有効な通信があっても約束からの逸脱、(3) 他エージェントの計画や通信について誤った期待を抱く傾向。大規模シミュレーションでは、役割分担・リソース分割・交渉といった稀だが興味深い創発的調整行動も観察された。本研究は協調的コーディングの新たなベンチマークを提供するとともに、個々のエージェント能力の追求から社会的知性の開発へとパラダイム転換を促すものである。
English
Resolving team conflicts requires not only task-specific competence, but also social intelligence to find common ground and build consensus. As AI agents increasingly collaborate on complex work, they must develop coordination capabilities to function as effective teammates. Yet we hypothesize that current agents lack these capabilities. To test this, we introduce CooperBench, a benchmark of over 600 collaborative coding tasks across 12 libraries in 4 programming languages. Each task assigns two agents different features that can be implemented independently but may conflict without proper coordination. Tasks are grounded in real open-source repositories with expert-written tests. Evaluating state-of-the-art coding agents, we observe the curse of coordination: agents achieve on average 30% lower success rates when working together compared to performing both tasks individually. This contrasts sharply with human teams, where adding teammates typically improves productivity. Our analysis reveals three key issues: (1) communication channels become jammed with vague, ill-timed, and inaccurate messages; (2) even with effective communication, agents deviate from their commitments; and (3) agents often hold incorrect expectations about others' plans and communication. Through large-scale simulation, we also observe rare but interesting emergent coordination behavior including role division, resource division, and negotiation. Our research presents a novel benchmark for collaborative coding and calls for a shift from pursuing individual agent capability to developing social intelligence.
PDF12January 29, 2026