EVOCHAMBER: Testzeit-Koevolution eines Multi-Agenten-Systems auf individueller, Team- und Populationsskala

Zusammenfassung

Wir argumentieren, dass die Mehr-Agenten-Testzeit-Evolution keine N-fache Wiederholung der Einzel-Agenten-Evolution ist. Ein einzelner lernender Agent kann nur seinen eigenen Kontext und sein Gedächtnis weiterentwickeln. Ein Mehr-Agenten-System entwickelt zusätzlich, wer zusammenarbeitet, wie sie zusammenarbeiten und wie Wissen über die Population fließt. Diese Komponenten haben kein Pendant beim Einzel-Agenten und können Phänomene wie emergente Spezialisierung hervorbringen. Dennoch beschränken bisherige Testzeit-Methoden entweder die Erfahrungen auf einzelne Agenten, wodurch agentenübergreifendes Lernen verschenkt wird, oder sie senden symmetrisch an alle Agenten aus, wodurch die Spezialisierung aufgehoben wird, die Zusammenarbeit wertvoll macht. Wir präsentieren EVOCHAMBER, ein trainingsfreies Framework, das die Testzeit-Evolution auf drei Ebenen über einen co-evolvierenden Agentenpool instanziiert. Sein Kern ist CODREAM (Collaborative Dreaming), ein nach der Aufgabe ausgelöstes Protokoll bei Teamfehlschlag oder Uneinigkeit, bei dem Agenten gemeinsam reflektieren, Erkenntnisse destillieren und diese asymmetrisch von starken zu schwachen Agenten für die gescheiterte Nische leiten, wobei Spezialisierung erhalten bleibt und Wissenslücken gefüllt werden. Teamebene-Operatoren stellen nischenkonditionierte Teams zusammen und wählen online die Kollaborationsstrukturen aus. Populationsebenen-Lebenszyklusoperatoren verzweigen, fusionieren, beschneiden und setzen Agenten unter Leistungsdruck neu ein. Auf drei heterogenen Aufgabenströmen mit Qwen3-8B erreicht EVOCHAMBER 63,9% bei Wettbewerbsmathematik, 75,7% bei Code und 87,1% bei bereichsübergreifendem Denken, übertrifft die beste Baseline relativ um 32% bei Mathematik und bestätigt asymmetrischen agentenübergreifenden Transfer als primären Treiber in der Ablation. Ausgehend von mehreren identisch initialisierten Agenten entstehen spontan vier bis fünf stabile Nischenspezialisten – eine strukturelle Signatur der Mehr-Agenten-Evolution, die kein Einzel-Agenten-Lerner ausdrücken kann. Siehe unseren Code unter: https://github.com/Mercury7353/EvoChamber

English

We argue that multi-agent test-time evolution is not single-agent evolution replicated N times. A single-agent learner can only evolve its own context and memory. A multi-agent system additionally evolves who collaborates, how they collaborate, and how knowledge flows across the population. These components have no single-agent counterpart and can produce phenomena such as emergent specialization. Yet prior test-time methods either confine experiences to individual agents, forfeiting cross-agent learning, or broadcast symmetrically to all agents, erasing the specialization that makes collaboration valuable. We present EVOCHAMBER, a training-free framework that instantiates test-time evolution at three levels over a coevolving agent pool. At its core is CODREAM (Collaborative Dreaming), a post-task protocol triggered on team failure or disagreement, in which agents collaboratively reflect, distill insights, and route them asymmetrically from strong to weak agents on the failed niche, preserving specialization while filling knowledge gaps. Team-level operators assemble niche-conditioned teams and select collaboration structures online. Population-level lifecycle operators fork, merge, prune, and seed agents under performance pressure. On three heterogeneous task streams with Qwen3-8B, EVOCHAMBER reaches 63.9% on competition math, 75.7% on code, and 87.1% on multi-domain reasoning, outperforming the best baseline by 32% relative on math and confirming asymmetric cross-agent transfer as the primary driver in ablation. Starting from several identically initialized agents, four to five stable niche specialists spontaneously emerge, a structural signature of multi-agent evolution that no single-agent learner can express. See our code at: https://github.com/Mercury7353/EvoChamber

EVOCHAMBER: Testzeit-Koevolution eines Multi-Agenten-Systems auf individueller, Team- und Populationsskala

EVOCHAMBER: Test-Time Co-evolution of Multi-Agent System at Individual, Team, and Population Scales

Zusammenfassung

Support