Internalização de Políticas Multimodais para Agentes Conversacionais

Resumo

Agentes conversacionais modernos como ChatGPT e Alexa+ dependem de políticas predefinidas que especificam metadados, estilos de resposta e regras de uso de ferramentas. À medida que esses sistemas baseados em LLM (Large Language Models) se expandem para suportar diversas consultas de negócios e usuários, tais políticas, frequentemente implementadas como prompts em contexto, estão se tornando cada vez mais complexas e extensas, dificultando a adesão fiel e impondo grandes custos computacionais fixos. Com o surgimento de agentes multimodais, políticas que governam comportamentos visuais e multimodais são críticas, mas ainda pouco estudadas. Trabalhos anteriores de compressão de prompts se concentram principalmente em encurtar modelos de tarefas e demonstrações, enquanto estudos existentes sobre alinhamento de políticas focam apenas em regras de segurança baseadas em texto. Introduzimos a Internalização de Políticas Multimodais (Multimodal Policy Internalization - MPI), uma nova tarefa que internaliza políticas multimodais intensivas em raciocínio nos parâmetros do modelo, permitindo uma adesão mais forte às políticas sem a necessidade de incluí-las durante a inferência. A MPI apresenta desafios únicos de dados e algoritmos. Construímos dois conjuntos de dados abrangendo tarefas sintéticas e do mundo real de tomada de decisão e uso de ferramentas e propomos o TriMPI, uma estrutura de treinamento em três estágios. O TriMPI primeiro injeta conhecimento de políticas por meio de pré-treinamento contínuo, depois realiza ajuste fino supervisionado e, finalmente, aplica o PolicyRollout, uma extensão de aprendizado por reforço no estilo GRPO que aumenta os rollouts com respostas conscientes das políticas para exploração fundamentada. O TriMPI alcança ganhos notáveis em precisão de ponta a ponta, generalização e robustez ao esquecimento. Como o primeiro trabalho sobre internalização de políticas multimodais, fornecemos conjuntos de dados, receitas de treinamento e avaliações abrangentes para fomentar pesquisas futuras. Página do projeto: https://mikewangwzhl.github.io/TriMPI.

English

Modern conversational agents like ChatGPT and Alexa+ rely on predefined policies specifying metadata, response styles, and tool-usage rules. As these LLM-based systems expand to support diverse business and user queries, such policies, often implemented as in-context prompts, are becoming increasingly complex and lengthy, making faithful adherence difficult and imposing large fixed computational costs. With the rise of multimodal agents, policies that govern visual and multimodal behaviors are critical but remain understudied. Prior prompt-compression work mainly shortens task templates and demonstrations, while existing policy-alignment studies focus only on text-based safety rules. We introduce Multimodal Policy Internalization (MPI), a new task that internalizes reasoning-intensive multimodal policies into model parameters, enabling stronger policy-following without including the policy during inference. MPI poses unique data and algorithmic challenges. We build two datasets spanning synthetic and real-world decision-making and tool-using tasks and propose TriMPI, a three-stage training framework. TriMPI first injects policy knowledge via continual pretraining, then performs supervised finetuning, and finally applies PolicyRollout, a GRPO-style reinforcement learning extension that augments rollouts with policy-aware responses for grounded exploration. TriMPI achieves notable gains in end-to-end accuracy, generalization, and robustness to forgetting. As the first work on multimodal policy internalization, we provide datasets, training recipes, and comprehensive evaluations to foster future research. Project page: https://mikewangwzhl.github.io/TriMPI.

Internalização de Políticas Multimodais para Agentes Conversacionais

Multimodal Policy Internalization for Conversational Agents

Resumo

Support