Multimodale Politikverinnerlichung für konversationelle Agenten
Multimodal Policy Internalization for Conversational Agents
October 10, 2025
papers.authors: Zhenhailong Wang, Jiateng Liu, Amin Fazel, Ritesh Sarkhel, Xing Fan, Xiang Li, Chenlei Guo, Heng Ji, Ruhi Sarikaya
cs.AI
papers.abstract
Moderne Konversationsagenten wie ChatGPT und Alexa+ basieren auf vordefinierten Richtlinien, die Metadaten, Antwortstile und Regeln für die Werkzeugnutzung spezifizieren. Da diese LLM-basierten Systeme erweitert werden, um diverse geschäftliche und nutzerspezifische Anfragen zu unterstützen, werden solche Richtlinien, die oft als In-Context-Prompts implementiert sind, zunehmend komplex und umfangreich. Dies erschwert die treue Einhaltung und verursacht hohe feste Berechnungskosten. Mit dem Aufkommen multimodaler Agenten sind Richtlinien, die visuelles und multimodales Verhalten steuern, entscheidend, bleiben jedoch weitgehend unerforscht. Bisherige Arbeiten zur Prompt-Komprimierung konzentrieren sich hauptsächlich auf die Verkürzung von Aufgabenvorlagen und Demonstrationen, während bestehende Studien zur Richtlinienausrichtung sich nur auf textbasierte Sicherheitsregeln beschränken. Wir stellen Multimodal Policy Internalization (MPI) vor, eine neue Aufgabe, die ressourcenintensive multimodale Richtlinien in Modellparameter internalisiert und so eine stärkere Richtlinienbefolgung ermöglicht, ohne die Richtlinie während der Inferenz einzubeziehen. MPI stellt einzigartige Daten- und algorithmische Herausforderungen dar. Wir erstellen zwei Datensätze, die synthetische und reale Entscheidungsfindungs- und Werkzeugnutzungsaufgaben abdecken, und schlagen TriMPI vor, ein dreistufiges Trainingsframework. TriMPI injiziert zunächst Richtlinienwissen durch kontinuierliches Pretraining, führt dann überwachtes Finetuning durch und wendet schließlich PolicyRollout an, eine GRPO-artige Erweiterung des Reinforcement Learning, die Rollouts mit richtlinienbewussten Antworten für fundierte Exploration ergänzt. TriMPI erzielt bemerkenswerte Fortschritte in Bezug auf End-to-End-Genauigkeit, Generalisierung und Robustheit gegenüber Vergessen. Als erste Arbeit zur Internalisierung multimodaler Richtlinien stellen wir Datensätze, Trainingsrezepte und umfassende Evaluierungen zur Verfügung, um zukünftige Forschung zu fördern. Projektseite: https://mikewangwzhl.github.io/TriMPI.
English
Modern conversational agents like ChatGPT and Alexa+ rely on predefined
policies specifying metadata, response styles, and tool-usage rules. As these
LLM-based systems expand to support diverse business and user queries, such
policies, often implemented as in-context prompts, are becoming increasingly
complex and lengthy, making faithful adherence difficult and imposing large
fixed computational costs. With the rise of multimodal agents, policies that
govern visual and multimodal behaviors are critical but remain understudied.
Prior prompt-compression work mainly shortens task templates and
demonstrations, while existing policy-alignment studies focus only on
text-based safety rules. We introduce Multimodal Policy Internalization (MPI),
a new task that internalizes reasoning-intensive multimodal policies into model
parameters, enabling stronger policy-following without including the policy
during inference. MPI poses unique data and algorithmic challenges. We build
two datasets spanning synthetic and real-world decision-making and tool-using
tasks and propose TriMPI, a three-stage training framework. TriMPI first
injects policy knowledge via continual pretraining, then performs supervised
finetuning, and finally applies PolicyRollout, a GRPO-style reinforcement
learning extension that augments rollouts with policy-aware responses for
grounded exploration. TriMPI achieves notable gains in end-to-end accuracy,
generalization, and robustness to forgetting. As the first work on multimodal
policy internalization, we provide datasets, training recipes, and
comprehensive evaluations to foster future research. Project page:
https://mikewangwzhl.github.io/TriMPI.