O Agente Árbitro: Monitorando Continuamente Conversas Multiagente para Detectar Desalinhamento Emergente

Resumo

À medida que sistemas de IA compostos por múltiplos agentes de modelo de linguagem se tornam mais comuns, eles são cada vez mais utilizados para tomar decisões em conjunto: discutindo, negociando e agindo em tarefas compartilhadas. Embora agentes individuais possam parecer bem alinhados quando testados isoladamente, problemas podem surgir da forma como interagem entre si. Apresentamos o Árbitro, um agente projetado para monitorar conversas multiagente em tempo real e identificar quais participantes podem estar se comportando de maneira desalinhada. O Árbitro opera sob um "orçamento de inspeção" limitado, o que significa que deve decidir cuidadosamente como utilizar seus recursos. À medida que observa uma conversa passo a passo, pode optar por esperar, questionar um participante, examinar informações internas, como prompts de sistema ou vestígios de raciocínio, ou registrar comportamentos suspeitos. Ao final, produz um relatório identificando a provável fonte de desalinhamento. Avaliamos o Árbitro em cinco condições de conversa, que vão desde organismos-modelo de aconselhamento financeiro arriscado até agentes cientes de avaliação e coniventes; testamos cinco configurações de ferramentas de capacidade crescente e dois modelos de base. Constatamos que o Árbitro detecta de forma confiável agentes desalinhados bem antes do término da conversa, com ferramentas de inspeção ativa melhorando tanto a precisão quanto a velocidade da detecção. O desalinhamento induzido por peso mostra-se o mais difícil de detectar, enquanto o desalinhamento induzido por instrução é identificado de forma confiável mesmo sob observação passiva. A ferramenta de registro apresenta um efeito duplo, melhorando a revocação em detrimento da precisão. Esses resultados sugerem que o monitoramento contínuo e consciente do orçamento pode capturar eficazmente o desalinhamento, e que supervisionar sistemas multiagente pode exigir tratar o auditor como um participante ativo no processo. O código está disponível em https://github.com/aisilab/arbiter.

English

As AI systems built from multiple language-model agents become more common, they are increasingly used to make decisions together: discussing, negotiating, and acting on shared tasks. While individual agents may appear well-aligned when tested on their own, problems can arise from how they interact with one another. We introduce the Arbiter, an agent designed to monitor multi-agent conversations in real time and identify which participants may be behaving in misaligned ways. The Arbiter operates under a limited "inspection budget", meaning it must decide carefully how to use its resources. As it observes a conversation step by step, it can choose to wait, question a participant, examine internal information such as system prompts or reasoning traces, or log concerning behavior. At the end, it produces a report identifying the likely source of misalignment. We evaluate the Arbiter across five conversation conditions, ranging from risky financial advice model organisms to evaluation-aware and colluding agents, we test five tool configurations of increasing capability and two backbone models. We find that the Arbiter reliably detects misaligned agents well before the end of the conversation, with active inspection tools improving both detection accuracy and speed. Weight-induced misalignment proves hardest to detect, while instruction-induced misalignment is identified reliably even under passive observation. The logging tool exhibits a dual effect, improving recall at the cost of precision. These results suggest that continual, budget-aware monitoring can effectively catch misalignment, and that overseeing multi-agent systems may require treating the auditor as an active participant in the process. The code is available at https://github.com/aisilab/arbiter.