Der Schiedsrichter-Agent: Kontinuierliche Überwachung von Multi-Agenten-Gesprächen zur Erkennung von emergenten Fehlausrichtungen

Zusammenfassung

Da KI-Systeme, die aus mehreren Sprachmodell-Agenten aufgebaut sind, immer häufiger werden, werden sie zunehmend genutzt, um gemeinsam Entscheidungen zu treffen: zu diskutieren, zu verhandeln und an gemeinsamen Aufgaben zu arbeiten. Während einzelne Agenten bei isolierten Tests gut ausgerichtet erscheinen mögen, können Probleme aus ihrer Interaktion untereinander entstehen. Wir stellen den Arbiter vor, einen Agenten, der darauf ausgelegt ist, Multi-Agenten-Gespräche in Echtzeit zu überwachen und zu identifizieren, welche Teilnehmer sich möglicherweise fehlausgerichtet verhalten. Der Arbiter arbeitet unter einem begrenzten „Inspektionsbudget“, d. h. er muss sorgfältig entscheiden, wie er seine Ressourcen einsetzt. Während er ein Gespräch Schritt für Schritt beobachtet, kann er wählen, ob er abwarten, einen Teilnehmer befragen, interne Informationen wie Systemanweisungen oder Gedankengänge einsehen oder auffälliges Verhalten protokollieren möchte. Am Ende erstellt er einen Bericht, der die wahrscheinliche Quelle der Fehlausrichtung identifiziert. Wir evaluieren den Arbiter über fünf Gesprächsbedingungen hinweg, die von riskanten Finanzberatungs-Modellorganismen bis hin zu evaluationsbewussten und kolludierenden Agenten reichen. Wir testen fünf Werkzeugkonfigurationen mit zunehmender Leistungsfähigkeit sowie zwei Basis-Modelle. Wir stellen fest, dass der Arbiter fehlausgerichtete Agenten zuverlässig weit vor Ende des Gesprächs erkennt, wobei aktive Inspektionswerkzeuge sowohl die Erkennungsgenauigkeit als auch die Geschwindigkeit verbessern. Gewichtsinduzierte Fehlausrichtung erweist sich als am schwierigsten zu erkennen, während anweisungsinduzierte Fehlausrichtung selbst bei passiver Beobachtung zuverlässig identifiziert wird. Das Protokollierungswerkzeug zeigt einen dualen Effekt, indem es den Recall auf Kosten der Präzision verbessert. Diese Ergebnisse legen nahe, dass kontinuierliche, budgetbewusste Überwachung Fehlausrichtungen effektiv aufdecken kann und dass die Überwachung von Multi-Agenten-Systeme möglicherweise erfordert, den Prüfer als aktiven Teilnehmer des Prozesses zu behandeln. Der Code ist verfügbar unter https://github.com/aisilab/arbiter.

English

As AI systems built from multiple language-model agents become more common, they are increasingly used to make decisions together: discussing, negotiating, and acting on shared tasks. While individual agents may appear well-aligned when tested on their own, problems can arise from how they interact with one another. We introduce the Arbiter, an agent designed to monitor multi-agent conversations in real time and identify which participants may be behaving in misaligned ways. The Arbiter operates under a limited "inspection budget", meaning it must decide carefully how to use its resources. As it observes a conversation step by step, it can choose to wait, question a participant, examine internal information such as system prompts or reasoning traces, or log concerning behavior. At the end, it produces a report identifying the likely source of misalignment. We evaluate the Arbiter across five conversation conditions, ranging from risky financial advice model organisms to evaluation-aware and colluding agents, we test five tool configurations of increasing capability and two backbone models. We find that the Arbiter reliably detects misaligned agents well before the end of the conversation, with active inspection tools improving both detection accuracy and speed. Weight-induced misalignment proves hardest to detect, while instruction-induced misalignment is identified reliably even under passive observation. The logging tool exhibits a dual effect, improving recall at the cost of precision. These results suggest that continual, budget-aware monitoring can effectively catch misalignment, and that overseeing multi-agent systems may require treating the auditor as an active participant in the process. The code is available at https://github.com/aisilab/arbiter.