arXiv: 2510.23595v1
다중 에이전트 진화: 공동 진화를 통한 LLM 자기 개선
Multi-Agent Evolve: LLM Self-Improve through Co-evolution
October 27, 2025
저자: Yixing Chen, Yiding Wang, Siqi Zhu, Haofei Yu, Tao Feng, Muhan Zhan, Mostofa Patwary, Jiaxuan You
cs.AIcs.AI
초록
강화 학습(Reinforcement Learning, RL)은 대규모 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키는 데 있어 상당한 잠재력을 보여주고 있다. 그러나 LLM을 위한 RL의 성공은 인간이 직접 구축한 데이터셋과 검증 가능한 보상에 크게 의존하며, 이는 확장성과 일반성을 제한한다. 최근 게임 및 바둑에서의 성공에서 영감을 받은 자기 대전(Self-Play) RL 방법들은 인간이 주석을 단 데이터 없이도 LLM의 추론 능력을 향상시키고자 한다. 그러나 이러한 방법들은 주로 피드백을 위한 구체적인 환경(예: 파이썬 인터프리터 또는 게임 엔진)에 의존하며, 이를 일반적인 도메인으로 확장하는 것은 여전히 어려운 과제로 남아 있다. 이러한 문제를 해결하기 위해, 우리는 수학, 추론, 일반 지식 Q&A 등 다양한 과제를 해결하는 데 있어 LLM이 스스로 진화할 수 있도록 하는 다중 에이전트 진화(Multi-Agent Evolve, MAE) 프레임워크를 제안한다. MAE의 핵심 설계는 단일 LLM에서 인스턴스화된 상호작용하는 세 가지 에이전트(제안자, 해결자, 판단자)로 구성되며, 강화 학습을 적용하여 이들의 행동을 최적화한다. 제안자는 질문을 생성하고, 해결자는 해결책을 시도하며, 판단자는 이를 평가하면서 공동으로 진화한다. Qwen2.5-3B-Instruct에 대한 실험 결과, MAE는 여러 벤치마크에서 평균 4.54%의 성능 향상을 달성했다. 이러한 결과는 MAE가 인간이 직접 구축한 감독에 최소한으로 의존하면서도 LLM의 일반적인 추론 능력을 향상시키는 확장 가능하고 데이터 효율적인 방법임을 보여준다.
English
Reinforcement Learning (RL) has demonstrated significant potential in enhancing the reasoning capabilities of large language models (LLMs). However, the success of RL for LLMs heavily relies on human-curated datasets and verifiable rewards, which limit their scalability and generality. Recent Self-Play RL methods, inspired by the success of the paradigm in games and Go, aim to enhance LLM reasoning capabilities without human-annotated data. However, their methods primarily depend on a grounded environment for feedback (e.g., a Python interpreter or a game engine); extending them to general domains remains challenging. To address these challenges, we propose Multi-Agent Evolve (MAE), a framework that enables LLMs to self-evolve in solving diverse tasks, including mathematics, reasoning, and general knowledge Q&A. The core design of MAE is based on a triplet of interacting agents (Proposer, Solver, Judge) that are instantiated from a single LLM, and applies reinforcement learning to optimize their behaviors. The Proposer generates questions, the Solver attempts solutions, and the Judge evaluates both while co-evolving. Experiments on Qwen2.5-3B-Instruct demonstrate that MAE achieves an average improvement of 4.54% on multiple benchmarks. These results highlight MAE as a scalable, data-efficient method for enhancing the general reasoning abilities of LLMs with minimal reliance on human-curated supervision.