ChatPaper.aiChatPaper

Internalisation des politiques multimodales pour les agents conversationnels

Multimodal Policy Internalization for Conversational Agents

October 10, 2025
papers.authors: Zhenhailong Wang, Jiateng Liu, Amin Fazel, Ritesh Sarkhel, Xing Fan, Xiang Li, Chenlei Guo, Heng Ji, Ruhi Sarikaya
cs.AI

papers.abstract

Les agents conversationnels modernes tels que ChatGPT et Alexa+ s'appuient sur des politiques prédéfinies spécifiant des métadonnées, des styles de réponse et des règles d'utilisation d'outils. Alors que ces systèmes basés sur des modèles de langage de grande taille (LLM) se développent pour prendre en charge des requêtes variées provenant d'entreprises et d'utilisateurs, ces politiques, souvent implémentées sous forme d'invites contextuelles, deviennent de plus en plus complexes et longues, rendant leur adhésion fidèle difficile et imposant des coûts de calcul fixes élevés. Avec l'émergence d'agents multimodaux, les politiques qui régissent les comportements visuels et multimodaux sont cruciales mais restent peu étudiées. Les travaux antérieurs sur la compression d'invites se concentrent principalement sur la réduction des modèles de tâches et des démonstrations, tandis que les études existantes sur l'alignement des politiques se limitent aux règles de sécurité basées sur le texte. Nous introduisons l'Internalisation de Politiques Multimodales (MPI), une nouvelle tâche qui internalise des politiques multimodales intensives en raisonnement dans les paramètres du modèle, permettant un suivi plus rigoureux des politiques sans inclure ces dernières lors de l'inférence. La MPI pose des défis uniques en termes de données et d'algorithmes. Nous construisons deux ensembles de données couvrant des tâches de prise de décision et d'utilisation d'outils synthétiques et réelles, et proposons TriMPI, un cadre d'entraînement en trois étapes. TriMPI injecte d'abord les connaissances politiques via un pré-entraînement continu, puis effectue un ajustement supervisé, et enfin applique PolicyRollout, une extension d'apprentissage par renforcement de style GRPO qui enrichit les déploiements avec des réponses conscientes des politiques pour une exploration ancrée. TriMPI obtient des gains notables en précision end-to-end, en généralisation et en robustesse face à l'oubli. En tant que premier travail sur l'internalisation de politiques multimodales, nous fournissons des ensembles de données, des recettes d'entraînement et des évaluations complètes pour stimuler les recherches futures. Page du projet : https://mikewangwzhl.github.io/TriMPI.
English
Modern conversational agents like ChatGPT and Alexa+ rely on predefined policies specifying metadata, response styles, and tool-usage rules. As these LLM-based systems expand to support diverse business and user queries, such policies, often implemented as in-context prompts, are becoming increasingly complex and lengthy, making faithful adherence difficult and imposing large fixed computational costs. With the rise of multimodal agents, policies that govern visual and multimodal behaviors are critical but remain understudied. Prior prompt-compression work mainly shortens task templates and demonstrations, while existing policy-alignment studies focus only on text-based safety rules. We introduce Multimodal Policy Internalization (MPI), a new task that internalizes reasoning-intensive multimodal policies into model parameters, enabling stronger policy-following without including the policy during inference. MPI poses unique data and algorithmic challenges. We build two datasets spanning synthetic and real-world decision-making and tool-using tasks and propose TriMPI, a three-stage training framework. TriMPI first injects policy knowledge via continual pretraining, then performs supervised finetuning, and finally applies PolicyRollout, a GRPO-style reinforcement learning extension that augments rollouts with policy-aware responses for grounded exploration. TriMPI achieves notable gains in end-to-end accuracy, generalization, and robustness to forgetting. As the first work on multimodal policy internalization, we provide datasets, training recipes, and comprehensive evaluations to foster future research. Project page: https://mikewangwzhl.github.io/TriMPI.
PDF42October 14, 2025