다중 에이전트 시스템에서의 잠재적 협력
Latent Collaboration in Multi-Agent Systems
November 25, 2025
저자: Jiaru Zou, Xiyuan Yang, Ruizhong Qiu, Gaotang Li, Katherine Tieu, Pan Lu, Ke Shen, Hanghang Tong, Yejin Choi, Jingrui He, James Zou, Mengdi Wang, Ling Yang
cs.AI
초록
다중 에이전트 시스템(MAS)은 대규모 언어 모델(LLM)을 독립적인 단일 모델 추론에서 조정 가능한 시스템 수준 지능으로 확장합니다. 기존 LLM 에이전트가 추론과 의사소통을 위해 텍스트 기반 중재에 의존하는 반면, 우리는 연속 잠재 공간 내에서 모델이 직접 협업할 수 있도록 한 단계 더 나아갑니다. 본 논문은 LLM 에이전트 간의 순수 잠재 협업을 가능하게 하는 훈련 없이 작동하는 종단 간 프레임워크인 LatentMAS를 소개합니다. LatentMAS에서 각 에이전트는 먼저 최종 은닉층 임베딩을 통한 자기회귀적 잠재 사고 생성을 수행합니다. 그런 다음 공유 잠재 작업 메모리가 각 에이전트의 내부 표현을 보존하고 전달하여 무손실 정보 교환을 보장합니다. 우리는 LatentMAS가 기존 텍스트 기반 MAS 대비 훨씬 낮은 복잡도로 더 높은 표현력과 무손실 정보 보존을 달성함을 이론적으로 분석합니다. 또한 수학 및 과학 추론, 상식 이해, 코드 생성에 이르는 9가지 종합 벤치마크에서의 실험적 평가를 통해 LatentMAS가 강력한 단일 모델 및 텍스트 기합 MAS 기준선을 꾸준히 능가하며, 최대 14.6% 높은 정확도 달성, 70.8%~83.7%의 출력 토큰 사용량 감소, 4배~4.3배 빠른 종단 간 추론 속도를 제공함을 보여줍니다. 이러한 결과는 우리의 새로운 잠재 협업 프레임워크가 추가 훈련 없이 시스템 수준 추론 품질을 향상시키면서도 상당한 효율성 이득을 제공함을 입증합니다. 코드와 데이터는 https://github.com/Gen-Verse/LatentMAS에서 완전히 공개되어 있습니다.
English
Multi-agent systems (MAS) extend large language models (LLMs) from independent single-model reasoning to coordinative system-level intelligence. While existing LLM agents depend on text-based mediation for reasoning and communication, we take a step forward by enabling models to collaborate directly within the continuous latent space. We introduce LatentMAS, an end-to-end training-free framework that enables pure latent collaboration among LLM agents. In LatentMAS, each agent first performs auto-regressive latent thoughts generation through last-layer hidden embeddings. A shared latent working memory then preserves and transfers each agent's internal representations, ensuring lossless information exchange. We provide theoretical analyses establishing that LatentMAS attains higher expressiveness and lossless information preservation with substantially lower complexity than vanilla text-based MAS. In addition, empirical evaluations across 9 comprehensive benchmarks spanning math and science reasoning, commonsense understanding, and code generation show that LatentMAS consistently outperforms strong single-model and text-based MAS baselines, achieving up to 14.6% higher accuracy, reducing output token usage by 70.8%-83.7%, and providing 4x-4.3x faster end-to-end inference. These results demonstrate that our new latent collaboration framework enhances system-level reasoning quality while offering substantial efficiency gains without any additional training. Code and data are fully open-sourced at https://github.com/Gen-Verse/LatentMAS.