ChatPaper.aiChatPaper

Мультимодальная интернализация политики для диалоговых агентов

Multimodal Policy Internalization for Conversational Agents

October 10, 2025
Авторы: Zhenhailong Wang, Jiateng Liu, Amin Fazel, Ritesh Sarkhel, Xing Fan, Xiang Li, Chenlei Guo, Heng Ji, Ruhi Sarikaya
cs.AI

Аннотация

Современные диалоговые агенты, такие как ChatGPT и Alexa+, опираются на предопределенные политики, которые задают метаданные, стили ответов и правила использования инструментов. По мере того как эти системы на основе больших языковых моделей (LLM) расширяются для поддержки разнообразных бизнес-запросов и запросов пользователей, такие политики, часто реализуемые в виде контекстных подсказок, становятся все более сложными и объемными, что затрудняет их точное соблюдение и приводит к значительным фиксированным вычислительным затратам. С появлением мультимодальных агентов политики, регулирующие визуальное и мультимодальное поведение, становятся критически важными, но остаются недостаточно изученными. Предыдущие работы по сжатию подсказок в основном сокращают шаблоны задач и примеры, тогда как существующие исследования по согласованию политик сосредоточены только на текстовых правилах безопасности. Мы представляем задачу Multimodal Policy Internalization (MPI), которая заключается в интериоризации сложных мультимодальных политик в параметры модели, что позволяет улучшить следование политикам без их включения в процесс вывода. MPI ставит уникальные задачи в области данных и алгоритмов. Мы создаем два набора данных, охватывающих синтетические и реальные задачи принятия решений и использования инструментов, и предлагаем TriMPI — трехэтапную структуру обучения. TriMPI сначала внедряет знания о политиках через непрерывное предварительное обучение, затем выполняет контролируемую дообучение и, наконец, применяет PolicyRollout — расширение в стиле GRPO для обучения с подкреплением, которое дополняет прогоны ответами, учитывающими политики, для обоснованного исследования. TriMPI демонстрирует значительные улучшения в точности, обобщаемости и устойчивости к забыванию. Будучи первой работой по интериоризации мультимодальных политик, мы предоставляем наборы данных, рецепты обучения и всесторонние оценки для стимулирования будущих исследований. Страница проекта: https://mikewangwzhl.github.io/TriMPI.
English
Modern conversational agents like ChatGPT and Alexa+ rely on predefined policies specifying metadata, response styles, and tool-usage rules. As these LLM-based systems expand to support diverse business and user queries, such policies, often implemented as in-context prompts, are becoming increasingly complex and lengthy, making faithful adherence difficult and imposing large fixed computational costs. With the rise of multimodal agents, policies that govern visual and multimodal behaviors are critical but remain understudied. Prior prompt-compression work mainly shortens task templates and demonstrations, while existing policy-alignment studies focus only on text-based safety rules. We introduce Multimodal Policy Internalization (MPI), a new task that internalizes reasoning-intensive multimodal policies into model parameters, enabling stronger policy-following without including the policy during inference. MPI poses unique data and algorithmic challenges. We build two datasets spanning synthetic and real-world decision-making and tool-using tasks and propose TriMPI, a three-stage training framework. TriMPI first injects policy knowledge via continual pretraining, then performs supervised finetuning, and finally applies PolicyRollout, a GRPO-style reinforcement learning extension that augments rollouts with policy-aware responses for grounded exploration. TriMPI achieves notable gains in end-to-end accuracy, generalization, and robustness to forgetting. As the first work on multimodal policy internalization, we provide datasets, training recipes, and comprehensive evaluations to foster future research. Project page: https://mikewangwzhl.github.io/TriMPI.
PDF42October 14, 2025