MASPRM: Многокритериальная модель вознаграждения процессов в мультиагентных системах

Аннотация

Практическое развертывание мульти-агентных систем (МАС) требует высокой производительности на этапе тестирования, что мотивирует разработку методов, направляющих поиск на этапе вывода и избирательно расходующих вычислительные ресурсы для повышения качества. Мы представляем Модель Поощрения Процесса Мульти-Агентной Системы (MASPRM). Она присваивает значения для каждого действия и каждого агента частичным транскриптам взаимодействий между агентами и действует как контроллер на этапе вывода. MASPRM обучается на роллаутах Монте-Карло по дереву (MCTS) в мульти-агентной среде без необходимости пошаговых аннотаций от человека, путем распространения возвратов на локальные цели. На этапе вывода MASPRM направляет пошаговый поиск по лучу и MCTS, фокусируя вычисления на перспективных ветвях и выполняя раннее отсечение. На наборах данных GSM8K и MATH декодирование, управляемое MASPRM, в сочетании с моделью вознаграждения по итогу (ORM), применяемой к финальному ответу, улучшает точное совпадение (EM) по сравнению с однократным прямым проходом МАС на +30.7 и +22.9 пункта соответственно. MASPRM, обученная на GSM8K, переносится без дообучения (zero-shot) на MATH, добавляя 8.4 пункта EM при том же бюджете вычислений. MASPRM является подключаемой моделью оценки, которая предсказывает прогресс каждого агента и дополняет декодеры верификационного типа, обеспечивая более надежные и учитывающие вычислительные затраты рассуждения в мульти-агентных системах. Код: https://github.com/milad1378yz/MASPRM

English

Practical deployment of Multi-Agent Systems (MAS) demands strong test-time performance, motivating methods that guide inference-time search and selectively spend compute to improve quality. We present the Multi-Agent System Process Reward Model (MASPRM). It assigns per-action, per-agent values to partial inter-agent transcripts and acts as an inference-time controller. MASPRM is trained from multi-agent Monte Carlo Tree Search (MCTS) rollouts without requiring step-level human annotations, by propagating returns to local targets. At inference, MASPRM guides step-level beam search and MCTS, focusing computation on promising branches and pruning early. On GSM8K and MATH, MASPRM-guided decoding with an outcome reward model (ORM) applied to the final answer, improves exact match (EM) over a single straight-through MAS pass by +30.7 and +22.9 points, respectively. A MASPRM trained on GSM8K transfers zero-shot to MATH without retraining, adding 8.4 EM points at the same budget. MASPRM is a plug-in value model that estimates per-agent progress and complements verifier-style decoders, enabling more reliable, compute-aware multi-agent reasoning. Code: https://github.com/milad1378yz/MASPRM

MASPRM: Многокритериальная модель вознаграждения процессов в мультиагентных системах

MASPRM: Multi-Agent System Process Reward Model

Аннотация

Support