다중 에이전트 진화: 공진화를 통한 대규모 언어 모델 자기 개선
Multi-Agent Evolve: LLM Self-Improve through Co-evolution
October 27, 2025
저자: Yixing Chen, Yiding Wang, Siqi Zhu, Haofei Yu, Tao Feng, Muhan Zhan, Mostofa Patwary, Jiaxuan You
cs.AI
초록
강화학습(RL)은 대규모 언어 모델(LLM)의 추론 능력 향상에 상당한 잠재력을 보여주고 있습니다. 그러나 LLM에 대한 RL의 성공은 인간이 정제한 데이터셋과 검증 가능한 보상에 크게 의존하여 확장성과 일반성을 제한합니다. 최근 게임 및 바둑 분야에서의 성공에서 영감을 받은 자기 대결(Self-Play) RL 방법론은 인간이 주석을 단 데이터 없이도 LLM의 추론 능력을 향상시키는 것을 목표로 합니다. 그러나 이들의 방법론은 피드백을 위한 근거 환경(예: 파이썬 인터프리터 또는 게임 엔진)에 주로 의존하며, 이를 일반 영역으로 확장하는 것은 여전히 어려운 과제로 남아 있습니다. 이러한 과제를 해결하기 위해 우리는 수학, 추론, 일반 상식 질의응답 등 다양한 과제 해결에서 LLM이 자기 진화(Self-Evolve)할 수 있도록 하는 프레임워크인 Multi-Agent Evolve(MAE)를 제안합니다. MAE의 핵심 설계는 단일 LLM으로 인스턴스화된 상호 작용하는 세 가지 에이전트(제안자, 해결사, 판단자)로 구성되며, 이들의 행동을 최적화하기 위해 강화학습을 적용합니다. 제안자는 질문을 생성하고, 해결사는 해결책을 시도하며, 판단자는 양쪽을 평가하면서 공동 진화합니다. Qwen2.5-3B-Instruct 모델을 이용한 실험에서 MAE는 여러 벤치마크에서 평균 4.54%의 성능 향상을 달성했습니다. 이러한 결과는 MAE가 인간이 정제한 지도 데이터에 대한 의존을 최소화하면서 LLM의 일반적인 추론 능력을 향상시키는 확장 가능하고 데이터 효율적인 방법임을 보여줍니다.
English
Reinforcement Learning (RL) has demonstrated significant potential in
enhancing the reasoning capabilities of large language models (LLMs). However,
the success of RL for LLMs heavily relies on human-curated datasets and
verifiable rewards, which limit their scalability and generality. Recent
Self-Play RL methods, inspired by the success of the paradigm in games and Go,
aim to enhance LLM reasoning capabilities without human-annotated data.
However, their methods primarily depend on a grounded environment for feedback
(e.g., a Python interpreter or a game engine); extending them to general
domains remains challenging. To address these challenges, we propose
Multi-Agent Evolve (MAE), a framework that enables LLMs to self-evolve in
solving diverse tasks, including mathematics, reasoning, and general knowledge
Q&A. The core design of MAE is based on a triplet of interacting agents
(Proposer, Solver, Judge) that are instantiated from a single LLM, and applies
reinforcement learning to optimize their behaviors. The Proposer generates
questions, the Solver attempts solutions, and the Judge evaluates both while
co-evolving. Experiments on Qwen2.5-3B-Instruct demonstrate that MAE achieves
an average improvement of 4.54% on multiple benchmarks. These results highlight
MAE as a scalable, data-efficient method for enhancing the general reasoning
abilities of LLMs with minimal reliance on human-curated supervision.