Multimodale Beleidsinternalisatie voor Conversatie-Agents
Multimodal Policy Internalization for Conversational Agents
October 10, 2025
Auteurs: Zhenhailong Wang, Jiateng Liu, Amin Fazel, Ritesh Sarkhel, Xing Fan, Xiang Li, Chenlei Guo, Heng Ji, Ruhi Sarikaya
cs.AI
Samenvatting
Moderne gespreksagenten zoals ChatGPT en Alexa+ vertrouwen op vooraf gedefinieerde beleidsregels die metadata, antwoordstijlen en regels voor het gebruik van tools specificeren. Naarmate deze op grote taalmodellen (LLM) gebaseerde systemen zich uitbreiden om diverse zakelijke en gebruikersvragen te ondersteunen, worden dergelijke beleidsregels, vaak geïmplementeerd als in-context prompts, steeds complexer en uitgebreider. Dit maakt het moeilijk om ze nauwgezet te volgen en brengt hoge vaste rekenkosten met zich mee. Met de opkomst van multimodale agenten zijn beleidsregels die visueel en multimodaal gedrag sturen cruciaal, maar blijven ze onderbelicht. Eerder werk aan promptcompressie richtte zich voornamelijk op het verkorten van taaksjablonen en demonstraties, terwijl bestaande studies over beleidsafstemming zich alleen richten op tekstgebaseerde veiligheidsregels. Wij introduceren Multimodal Policy Internalization (MPI), een nieuwe taak die redeneerintensieve multimodale beleidsregels internaliseert in modelparameters, waardoor een sterkere naleving van beleid mogelijk wordt zonder het beleid tijdens de inferentie te includeren. MPI brengt unieke uitdagingen op het gebied van data en algoritmen met zich mee. We bouwen twee datasets die synthetische en real-world besluitvormings- en toolgebruikstaken omvatten en stellen TriMPI voor, een driestappen trainingsframework. TriMPI injecteert eerst beleidskennis via voortgezette pretraining, voert vervolgens supervised finetuning uit en past ten slotte PolicyRollout toe, een GRPO-achtige uitbreiding van reinforcement learning die rollouts verrijkt met beleidsbewuste reacties voor gegronde exploratie. TriMPI behaalt aanzienlijke verbeteringen in end-to-end nauwkeurigheid, generalisatie en robuustheid tegen vergeten. Als het eerste werk op het gebied van multimodale beleidsinternalisatie bieden we datasets, trainingsrecepten en uitgebreide evaluaties om toekomstig onderzoek te bevorderen. Projectpagina: https://mikewangwzhl.github.io/TriMPI.
English
Modern conversational agents like ChatGPT and Alexa+ rely on predefined
policies specifying metadata, response styles, and tool-usage rules. As these
LLM-based systems expand to support diverse business and user queries, such
policies, often implemented as in-context prompts, are becoming increasingly
complex and lengthy, making faithful adherence difficult and imposing large
fixed computational costs. With the rise of multimodal agents, policies that
govern visual and multimodal behaviors are critical but remain understudied.
Prior prompt-compression work mainly shortens task templates and
demonstrations, while existing policy-alignment studies focus only on
text-based safety rules. We introduce Multimodal Policy Internalization (MPI),
a new task that internalizes reasoning-intensive multimodal policies into model
parameters, enabling stronger policy-following without including the policy
during inference. MPI poses unique data and algorithmic challenges. We build
two datasets spanning synthetic and real-world decision-making and tool-using
tasks and propose TriMPI, a three-stage training framework. TriMPI first
injects policy knowledge via continual pretraining, then performs supervised
finetuning, and finally applies PolicyRollout, a GRPO-style reinforcement
learning extension that augments rollouts with policy-aware responses for
grounded exploration. TriMPI achieves notable gains in end-to-end accuracy,
generalization, and robustness to forgetting. As the first work on multimodal
policy internalization, we provide datasets, training recipes, and
comprehensive evaluations to foster future research. Project page:
https://mikewangwzhl.github.io/TriMPI.