Агент-арбитр: непрерывный мониторинг многоагентных диалогов для выявления возникающего рассогласования

Аннотация

По мере того как ИИ-системы, состоящие из нескольких агентов на основе языковых моделей, становятся всё более распространёнными, они всё чаще используются для совместного принятия решений: обсуждения, переговоры и выполнение общих задач. Хотя отдельные агенты могут выглядеть хорошо выровненными при тестировании по отдельности, проблемы могут возникать из-за того, как они взаимодействуют друг с другом. Мы представляем Арбитра — агента, предназначенного для мониторинга многоголовых разговоров в реальном времени и выявления участников, которые могут вести себя невыровненно. Арбитр работает в условиях ограниченного «бюджета проверки», то есть должен тщательно решать, как использовать свои ресурсы. Наблюдая за разговором шаг за шагом, он может выбирать: ждать, задать вопрос участнику, изучить внутреннюю информацию, такую как системные промпты или трассы рассуждений, либо зарегистрировать вызывающее беспокойство поведение. В конце он составляет отчёт, в котором указывается вероятный источник невыровненности. Мы оцениваем Арбитра на пяти сценариях разговора, от модельных организмов с рискованными финансовыми советами до агентов, осведомлённых об оценке и сговаривающихся, и тестируем пять конфигураций инструментов возрастающей мощности, а также две базовые модели. Мы обнаружили, что Арбитр надёжно выявляет невыровненных агентов задолго до окончания разговора, причём активные инструменты проверки улучшают как точность, так и скорость обнаружения. Наиболее сложной для обнаружения оказалась невыровненность, вызванная весами, тогда как невыровненность, индуцированная инструкциями, надёжно выявляется даже при пассивном наблюдении. Инструмент журналирования демонстрирует двойственный эффект, улучшая полноту за счёт точности. Эти результаты показывают, что непрерывный мониторинг с учётом бюджета позволяет эффективно улавливать невыровненность, а для контроля многоголовых систем может потребоваться рассматривать аудитора как активного участника процесса. Код доступен по адресу https://github.com/aisilab/arbiter.

English

As AI systems built from multiple language-model agents become more common, they are increasingly used to make decisions together: discussing, negotiating, and acting on shared tasks. While individual agents may appear well-aligned when tested on their own, problems can arise from how they interact with one another. We introduce the Arbiter, an agent designed to monitor multi-agent conversations in real time and identify which participants may be behaving in misaligned ways. The Arbiter operates under a limited "inspection budget", meaning it must decide carefully how to use its resources. As it observes a conversation step by step, it can choose to wait, question a participant, examine internal information such as system prompts or reasoning traces, or log concerning behavior. At the end, it produces a report identifying the likely source of misalignment. We evaluate the Arbiter across five conversation conditions, ranging from risky financial advice model organisms to evaluation-aware and colluding agents, we test five tool configurations of increasing capability and two backbone models. We find that the Arbiter reliably detects misaligned agents well before the end of the conversation, with active inspection tools improving both detection accuracy and speed. Weight-induced misalignment proves hardest to detect, while instruction-induced misalignment is identified reliably even under passive observation. The logging tool exhibits a dual effect, improving recall at the cost of precision. These results suggest that continual, budget-aware monitoring can effectively catch misalignment, and that overseeing multi-agent systems may require treating the auditor as an active participant in the process. The code is available at https://github.com/aisilab/arbiter.