Optima : Optimisation de l'efficacité et de l'efficience pour un système multi-agent basé sur le LLM
Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System
October 10, 2024
Auteurs: Weize Chen, Jiarui Yuan, Chen Qian, Cheng Yang, Zhiyuan Liu, Maosong Sun
cs.AI
Résumé
Les systèmes multi-agents (SMA) basés sur de grands modèles de langage (LLM) montrent un potentiel remarquable en matière de résolution collaborative de problèmes, mais ils rencontrent encore des défis critiques : une faible efficacité de communication, une scalabilité limitée et un manque de méthodes d'optimisation efficaces pour la mise à jour des paramètres. Nous présentons Optima, un nouveau cadre qui aborde ces problèmes en améliorant significativement à la fois l'efficacité de la communication et l'efficacité des tâches dans les SMA basés sur le LLM grâce à l'entraînement du LLM. Optima utilise un paradigme itératif de génération, classement, sélection et entraînement avec une fonction de récompense équilibrant la performance des tâches, l'efficacité des jetons et la lisibilité de la communication. Nous explorons divers algorithmes de RL, y compris le Fine-Tuning Supervisé, l'Optimisation Directe des Préférences et leurs approches hybrides, fournissant des perspectives sur leurs compromis entre efficacité et efficience. Nous intégrons des techniques inspirées de la recherche arborescente de Monte Carlo pour la génération de données DPO, traitant les tours de conversation comme des nœuds d'arbre pour explorer des chemins d'interaction diversifiés. Évalué sur des tâches multi-agents courantes, y compris la réponse à des questions asymétriques en termes d'information et le raisonnement complexe, Optima montre des améliorations constantes et substantielles par rapport aux références mono-agent et aux SMA de base basés sur Llama 3 8B, atteignant jusqu'à 2,8 fois de gains de performance avec moins de 10 % de jetons sur des tâches nécessitant un échange d'informations important. De plus, les gains d'efficacité d'Optima ouvrent de nouvelles possibilités pour exploiter plus efficacement l'inférence-calcul, conduisant à des lois d'échelle d'inférence améliorées. En abordant les défis fondamentaux des SMA basés sur le LLM, Optima montre le potentiel vers des SMA évolutifs, efficaces et efficaces (https://chenweize1998.github.io/optima-project-page).
English
Large Language Model (LLM) based multi-agent systems (MAS) show remarkable
potential in collaborative problem-solving, yet they still face critical
challenges: low communication efficiency, poor scalability, and a lack of
effective parameter-updating optimization methods. We present Optima, a novel
framework that addresses these issues by significantly enhancing both
communication efficiency and task effectiveness in LLM-based MAS through LLM
training. Optima employs an iterative generate, rank, select, and train
paradigm with a reward function balancing task performance, token efficiency,
and communication readability. We explore various RL algorithms, including
Supervised Fine-Tuning, Direct Preference Optimization, and their hybrid
approaches, providing insights into their effectiveness-efficiency trade-offs.
We integrate Monte Carlo Tree Search-inspired techniques for DPO data
generation, treating conversation turns as tree nodes to explore diverse
interaction paths. Evaluated on common multi-agent tasks, including
information-asymmetric question answering and complex reasoning, Optima shows
consistent and substantial improvements over single-agent baselines and vanilla
MAS based on Llama 3 8B, achieving up to 2.8x performance gain with less than
10\% tokens on tasks requiring heavy information exchange. Moreover, Optima's
efficiency gains open new possibilities for leveraging inference-compute more
effectively, leading to improved inference-time scaling laws. By addressing
fundamental challenges in LLM-based MAS, Optima shows the potential towards
scalable, efficient, and effective MAS
(https://chenweize1998.github.io/optima-project-page).Summary
AI-Generated Summary