Internalização de Políticas Multimodais para Agentes Conversacionais
Multimodal Policy Internalization for Conversational Agents
October 10, 2025
Autores: Zhenhailong Wang, Jiateng Liu, Amin Fazel, Ritesh Sarkhel, Xing Fan, Xiang Li, Chenlei Guo, Heng Ji, Ruhi Sarikaya
cs.AI
Resumo
Agentes conversacionais modernos como ChatGPT e Alexa+ dependem de políticas predefinidas que especificam metadados, estilos de resposta e regras de uso de ferramentas. À medida que esses sistemas baseados em LLM (Large Language Models) se expandem para suportar diversas consultas de negócios e usuários, tais políticas, frequentemente implementadas como prompts em contexto, estão se tornando cada vez mais complexas e extensas, dificultando a adesão fiel e impondo grandes custos computacionais fixos. Com o surgimento de agentes multimodais, políticas que governam comportamentos visuais e multimodais são críticas, mas ainda pouco estudadas. Trabalhos anteriores de compressão de prompts se concentram principalmente em encurtar modelos de tarefas e demonstrações, enquanto estudos existentes sobre alinhamento de políticas focam apenas em regras de segurança baseadas em texto. Introduzimos a Internalização de Políticas Multimodais (Multimodal Policy Internalization - MPI), uma nova tarefa que internaliza políticas multimodais intensivas em raciocínio nos parâmetros do modelo, permitindo uma adesão mais forte às políticas sem a necessidade de incluí-las durante a inferência. A MPI apresenta desafios únicos de dados e algoritmos. Construímos dois conjuntos de dados abrangendo tarefas sintéticas e do mundo real de tomada de decisão e uso de ferramentas e propomos o TriMPI, uma estrutura de treinamento em três estágios. O TriMPI primeiro injeta conhecimento de políticas por meio de pré-treinamento contínuo, depois realiza ajuste fino supervisionado e, finalmente, aplica o PolicyRollout, uma extensão de aprendizado por reforço no estilo GRPO que aumenta os rollouts com respostas conscientes das políticas para exploração fundamentada. O TriMPI alcança ganhos notáveis em precisão de ponta a ponta, generalização e robustez ao esquecimento. Como o primeiro trabalho sobre internalização de políticas multimodais, fornecemos conjuntos de dados, receitas de treinamento e avaliações abrangentes para fomentar pesquisas futuras. Página do projeto: https://mikewangwzhl.github.io/TriMPI.
English
Modern conversational agents like ChatGPT and Alexa+ rely on predefined
policies specifying metadata, response styles, and tool-usage rules. As these
LLM-based systems expand to support diverse business and user queries, such
policies, often implemented as in-context prompts, are becoming increasingly
complex and lengthy, making faithful adherence difficult and imposing large
fixed computational costs. With the rise of multimodal agents, policies that
govern visual and multimodal behaviors are critical but remain understudied.
Prior prompt-compression work mainly shortens task templates and
demonstrations, while existing policy-alignment studies focus only on
text-based safety rules. We introduce Multimodal Policy Internalization (MPI),
a new task that internalizes reasoning-intensive multimodal policies into model
parameters, enabling stronger policy-following without including the policy
during inference. MPI poses unique data and algorithmic challenges. We build
two datasets spanning synthetic and real-world decision-making and tool-using
tasks and propose TriMPI, a three-stage training framework. TriMPI first
injects policy knowledge via continual pretraining, then performs supervised
finetuning, and finally applies PolicyRollout, a GRPO-style reinforcement
learning extension that augments rollouts with policy-aware responses for
grounded exploration. TriMPI achieves notable gains in end-to-end accuracy,
generalization, and robustness to forgetting. As the first work on multimodal
policy internalization, we provide datasets, training recipes, and
comprehensive evaluations to foster future research. Project page:
https://mikewangwzhl.github.io/TriMPI.