AgentsNet: マルチエージェントLLMにおける協調と協調的推論
AgentsNet: Coordination and Collaborative Reasoning in Multi-Agent LLMs
July 11, 2025
著者: Florian Grötschla, Luis Müller, Jan Tönshoff, Mikhail Galkin, Bryan Perozzi
cs.AI
要旨
大規模言語モデル(LLMs)は、特にマルチエージェントシステムとして組織化された場合に、強力な問題解決能力を示している。しかし、そのようなシステムの出現は、複雑なエージェントネットワークが効果的に自己組織化し、協力する能力に関するいくつかの疑問を提起する。標準的な推論ベンチマークでの性能測定は、マルチエージェントシステムが推論タスクをどの程度うまく解決できるかを示すが、これらのシステムがそのトポロジーを効果的に活用できるかどうかは不明である。ここでは、マルチエージェント推論のための新しいベンチマークであるAgentsNetを提案する。AgentsNetは、分散システムやグラフ理論における古典的な問題からインスピレーションを得て、与えられたネットワークトポロジーの下で、マルチエージェントシステムが問題解決、自己組織化、および効果的なコミュニケーションのための戦略を協力的に形成する能力を測定する。AgentsNetでは、まず基本的な組織化とコミュニケーションのプロトコルに合意する必要がある均質なエージェントネットワークを含む、さまざまなベースライン手法を評価する。その結果、一部の最先端のLLMsは、小規模なネットワークでは既に高い性能を示しているが、ネットワークの規模が拡大すると性能が低下し始めることがわかった。既存のマルチエージェントベンチマークは最大2〜5エージェントをカバーしているが、AgentsNetは実質的にサイズに制限がなく、新しい世代のLLMsとともにスケールすることができる。そのため、最大100エージェントまでのセットアップで最先端モデルを探ることも行った。
English
Large-language models (LLMs) have demonstrated powerful problem-solving
capabilities, in particular when organized in multi-agent systems. However, the
advent of such systems also raises several questions on the ability of a
complex network of agents to effectively self-organize and collaborate. While
measuring performance on standard reasoning benchmarks indicates how well
multi-agent systems can solve reasoning tasks, it is unclear whether these
systems are able to leverage their topology effectively. Here, we propose
AgentsNet, a new benchmark for multi-agent reasoning. By drawing inspiration
from classical problems in distributed systems and graph theory, AgentsNet
measures the ability of multi-agent systems to collaboratively form strategies
for problem-solving, self-organization, and effective communication given a
network topology. We evaluate a variety of baseline methods on AgentsNet
including homogeneous networks of agents which first have to agree on basic
protocols for organization and communication. We find that some frontier LLMs
are already demonstrating strong performance for small networks but begin to
fall off once the size of the network scales. While existing multi-agent
benchmarks cover at most 2-5 agents, AgentsNet is practically unlimited in size
and can scale with new generations of LLMs. As such, we also probe frontier
models in a setup with up to 100 agents.