Optima: LLM 기반 Multi-Agent System의 효과성과 효율성 최적화
Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System
October 10, 2024
저자: Weize Chen, Jiarui Yuan, Chen Qian, Cheng Yang, Zhiyuan Liu, Maosong Sun
cs.AI
초록
대규모 언어 모델(LLM) 기반의 다중 에이전트 시스템(MAS)은 협력 문제 해결에서 놀라운 잠재력을 보여주지만, 여전히 중요한 도전에 직면하고 있습니다: 낮은 통신 효율성, 낮은 확장성, 그리고 효과적인 매개변수 업데이트 최적화 방법의 부재. 저희는 Optima라는 혁신적인 프레임워크를 제시하여 LLM 기반 MAS에서 통신 효율성과 작업 효과성을 크게 향상시킴으로써 이러한 문제를 해결합니다. Optima는 LLM 훈련을 통해 LLM 기반 MAS에서 통신 효율성과 작업 효과성을 크게 향상시키는 반복적인 생성, 순위 매기기, 선택, 그리고 훈련 패러다임을 채택합니다. Optima는 작업 성능, 토큰 효율성, 그리고 통신 가독성을 균형있게 고려하는 보상 함수를 사용합니다. 저희는 지도된 미세 조정, 직접적인 선호도 최적화, 그리고 그들의 혼합 방식을 포함한 다양한 강화 학습 알고리즘을 탐구하며, 그들의 효과성-효율성 트레이드오프에 대한 통찰을 제공합니다. 우리는 DPO 데이터 생성을 위해 몬테카를로 트리 탐색에서 영감을 받은 기법을 통합하며, 대화 턴을 트리 노드로 취급하여 다양한 상호 작용 경로를 탐색합니다. 정보 비대칭 질문 응답 및 복잡한 추론을 포함한 일반적인 다중 에이전트 작업에서 평가한 결과, Optima는 단일 에이전트 기준선 및 Llama 3 8B를 기반으로 한 일반적인 MAS보다 일관되고 상당한 개선을 보여주며, 정보 교환이 많이 필요한 작업에서 10% 미만의 토큰으로 최대 2.8배의 성능 향상을 달성합니다. 더욱이, Optima의 효율성 향상은 추론-계산을 보다 효과적으로 활용하는 새로운 가능성을 열어주어 추론 시간 스케일링 법칙을 개선시킵니다. LLM 기반 MAS에서의 근본적인 도전에 대처함으로써, Optima는 확장 가능하고 효율적이며 효과적인 MAS로 나아가는 잠재력을 보여줍니다. (https://chenweize1998.github.io/optima-project-page)
English
Large Language Model (LLM) based multi-agent systems (MAS) show remarkable
potential in collaborative problem-solving, yet they still face critical
challenges: low communication efficiency, poor scalability, and a lack of
effective parameter-updating optimization methods. We present Optima, a novel
framework that addresses these issues by significantly enhancing both
communication efficiency and task effectiveness in LLM-based MAS through LLM
training. Optima employs an iterative generate, rank, select, and train
paradigm with a reward function balancing task performance, token efficiency,
and communication readability. We explore various RL algorithms, including
Supervised Fine-Tuning, Direct Preference Optimization, and their hybrid
approaches, providing insights into their effectiveness-efficiency trade-offs.
We integrate Monte Carlo Tree Search-inspired techniques for DPO data
generation, treating conversation turns as tree nodes to explore diverse
interaction paths. Evaluated on common multi-agent tasks, including
information-asymmetric question answering and complex reasoning, Optima shows
consistent and substantial improvements over single-agent baselines and vanilla
MAS based on Llama 3 8B, achieving up to 2.8x performance gain with less than
10\% tokens on tasks requiring heavy information exchange. Moreover, Optima's
efficiency gains open new possibilities for leveraging inference-compute more
effectively, leading to improved inference-time scaling laws. By addressing
fundamental challenges in LLM-based MAS, Optima shows the potential towards
scalable, efficient, and effective MAS
(https://chenweize1998.github.io/optima-project-page).Summary
AI-Generated Summary