SWE-Debate: 소프트웨어 이슈 해결을 위한 경쟁적 다중 에이전트 토론
SWE-Debate: Competitive Multi-Agent Debate for Software Issue Resolution
July 31, 2025
저자: Han Li, Yuling Shi, Shaoxin Lin, Xiaodong Gu, Heng Lian, Xin Wang, Yantao Jia, Tao Huang, Qianxiang Wang
cs.AI
초록
대형 언어 모델(LLMs)의 고급 추론 능력 덕분에 이슈 해결 분야에서 놀라운 진전이 이루어졌습니다. 최근 SWE-agent와 같은 에이전트 기반 프레임워크는 복잡한 소프트웨어 엔지니어링 작업을 해결하기 위해 자율적 도구 사용 에이전트를 가능하게 함으로써 이러한 진전을 더욱 발전시켰습니다. 기존의 에이전트 기반 이슈 해결 접근법은 주로 에이전트의 독립적인 탐색에 기반을 두고 있지만, 종종 지역적 해결책에 갇히거나 코드베이스의 다른 부분에 걸친 이슈 패턴을 식별하지 못하는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 다양한 추론 경로를 장려하고 더 통합된 이슈 위치 파악을 달성하는 경쟁적 다중 에이전트 토론 프레임워크인 SWE-Debate를 제안합니다. SWE-Debate는 먼저 코드 의존성 그래프를 탐색하여 여러 개의 결함 전파 경로를 위치 제안으로 생성합니다. 그런 다음, 결함 전파 경로를 따라 각기 다른 추론 관점을 구현한 전문 에이전트들 간의 세 라운드 토론을 조직합니다. 이 구조화된 경쟁은 에이전트들이 협력적으로 통합된 수정 계획에 도달할 수 있게 합니다. 마지막으로, 이 통합된 수정 계획은 패치 생성을 위해 MCTS 기반 코드 수정 에이전트에 통합됩니다. SWE-bench 벤치마크에서의 실험 결과, SWE-Debate는 오픈소스 에이전트 프레임워크에서 새로운 최첨단 결과를 달성하고 기준선을 큰 차이로 능가하는 것으로 나타났습니다.
English
Issue resolution has made remarkable progress thanks to the advanced
reasoning capabilities of large language models (LLMs). Recently, agent-based
frameworks such as SWE-agent have further advanced this progress by enabling
autonomous, tool-using agents to tackle complex software engineering tasks.
While existing agent-based issue resolution approaches are primarily based on
agents' independent explorations, they often get stuck in local solutions and
fail to identify issue patterns that span across different parts of the
codebase. To address this limitation, we propose SWE-Debate, a competitive
multi-agent debate framework that encourages diverse reasoning paths and
achieves more consolidated issue localization. SWE-Debate first creates
multiple fault propagation traces as localization proposals by traversing a
code dependency graph. Then, it organizes a three-round debate among
specialized agents, each embodying distinct reasoning perspectives along the
fault propagation trace. This structured competition enables agents to
collaboratively converge on a consolidated fix plan. Finally, this consolidated
fix plan is integrated into an MCTS-based code modification agent for patch
generation. Experiments on the SWE-bench benchmark show that SWE-Debate
achieves new state-of-the-art results in open-source agent frameworks and
outperforms baselines by a large margin.