Internalizzazione di Politiche Multimodali per Agenti Conversazionali
Multimodal Policy Internalization for Conversational Agents
October 10, 2025
Autori: Zhenhailong Wang, Jiateng Liu, Amin Fazel, Ritesh Sarkhel, Xing Fan, Xiang Li, Chenlei Guo, Heng Ji, Ruhi Sarikaya
cs.AI
Abstract
I moderni agenti conversazionali come ChatGPT e Alexa+ si basano su politiche predefinite che specificano metadati, stili di risposta e regole per l'uso degli strumenti. Man mano che questi sistemi basati su LLM si espandono per supportare una vasta gamma di query aziendali e utente, tali politiche, spesso implementate come prompt in contesto, stanno diventando sempre più complesse e lunghe, rendendo difficile un'aderenza fedele e imponendo costi computazionali fissi elevati. Con l'ascesa degli agenti multimodali, le politiche che governano i comportamenti visivi e multimodali sono cruciali ma rimangono poco studiate. I precedenti lavori sulla compressione dei prompt si concentrano principalmente sull'accorciamento dei modelli di task e delle dimostrazioni, mentre gli studi esistenti sull'allineamento delle politiche si focalizzano solo su regole di sicurezza basate sul testo. Introduciamo la Multimodal Policy Internalization (MPI), un nuovo compito che internalizza politiche multimodali ad alta intensità di ragionamento nei parametri del modello, consentendo un migliore rispetto delle politiche senza includere la politica durante l'inferenza. MPI presenta sfide uniche in termini di dati e algoritmi. Costruiamo due dataset che coprono task decisionali e di utilizzo di strumenti sia sintetici che del mondo reale e proponiamo TriMPI, un framework di addestramento in tre fasi. TriMPI prima inietta la conoscenza delle politiche tramite un pretraining continuo, poi esegue un fine-tuning supervisionato e infine applica PolicyRollout, un'estensione del reinforcement learning in stile GRPO che arricchisce i rollout con risposte consapevoli delle politiche per un'esplorazione radicata. TriMPI ottiene notevoli miglioramenti in termini di accuratezza end-to-end, generalizzazione e robustezza alla dimenticanza. Come primo lavoro sull'internalizzazione delle politiche multimodali, forniamo dataset, ricette di addestramento e valutazioni complete per favorire future ricerche. Pagina del progetto: https://mikewangwzhl.github.io/TriMPI.
English
Modern conversational agents like ChatGPT and Alexa+ rely on predefined
policies specifying metadata, response styles, and tool-usage rules. As these
LLM-based systems expand to support diverse business and user queries, such
policies, often implemented as in-context prompts, are becoming increasingly
complex and lengthy, making faithful adherence difficult and imposing large
fixed computational costs. With the rise of multimodal agents, policies that
govern visual and multimodal behaviors are critical but remain understudied.
Prior prompt-compression work mainly shortens task templates and
demonstrations, while existing policy-alignment studies focus only on
text-based safety rules. We introduce Multimodal Policy Internalization (MPI),
a new task that internalizes reasoning-intensive multimodal policies into model
parameters, enabling stronger policy-following without including the policy
during inference. MPI poses unique data and algorithmic challenges. We build
two datasets spanning synthetic and real-world decision-making and tool-using
tasks and propose TriMPI, a three-stage training framework. TriMPI first
injects policy knowledge via continual pretraining, then performs supervised
finetuning, and finally applies PolicyRollout, a GRPO-style reinforcement
learning extension that augments rollouts with policy-aware responses for
grounded exploration. TriMPI achieves notable gains in end-to-end accuracy,
generalization, and robustness to forgetting. As the first work on multimodal
policy internalization, we provide datasets, training recipes, and
comprehensive evaluations to foster future research. Project page:
https://mikewangwzhl.github.io/TriMPI.