ChatPaper.aiChatPaper

会話エージェントのためのマルチモーダル政策内面化

Multimodal Policy Internalization for Conversational Agents

October 10, 2025
著者: Zhenhailong Wang, Jiateng Liu, Amin Fazel, Ritesh Sarkhel, Xing Fan, Xiang Li, Chenlei Guo, Heng Ji, Ruhi Sarikaya
cs.AI

要旨

ChatGPTやAlexa+のような現代の対話エージェントは、メタデータ、応答スタイル、ツール使用ルールを指定する事前定義されたポリシーに依存しています。これらのLLMベースのシステムが多様なビジネスやユーザークエリをサポートするために拡張されるにつれ、コンテキスト内プロンプトとして実装されることが多いこれらのポリシーは、ますます複雑で長大になり、忠実な遵守が困難となり、大きな固定計算コストを課しています。マルチモーダルエージェントの台頭に伴い、視覚的およびマルチモーダルな行動を制御するポリシーは重要ですが、まだ十分に研究されていません。これまでのプロンプト圧縮研究は主にタスクテンプレートとデモンストレーションの短縮に焦点を当てており、既存のポリシーアライメント研究はテキストベースの安全ルールのみに焦点を当てています。本論文では、推論中にポリシーを含めることなく、推論集約型のマルチモーダルポリシーをモデルパラメータに内在化する新しいタスクであるMultimodal Policy Internalization(MPI)を紹介します。MPIは、データとアルゴリズムの面で独自の課題を提起します。私たちは、合成および実世界の意思決定とツール使用タスクにまたがる2つのデータセットを構築し、TriMPIという3段階のトレーニングフレームワークを提案します。TriMPIは、まず継続的な事前学習を通じてポリシー知識を注入し、次に教師ありファインチューニングを行い、最後にPolicyRolloutを適用します。PolicyRolloutは、GRPOスタイルの強化学習拡張であり、ポリシーを意識した応答をロールアウトに追加して、接地された探索を可能にします。TriMPIは、エンドツーエンドの精度、一般化、忘却に対するロバスト性において顕著な向上を達成します。マルチモーダルポリシー内在化に関する最初の研究として、データセット、トレーニングレシピ、包括的な評価を提供し、将来の研究を促進します。プロジェクトページ: https://mikewangwzhl.github.io/TriMPI。
English
Modern conversational agents like ChatGPT and Alexa+ rely on predefined policies specifying metadata, response styles, and tool-usage rules. As these LLM-based systems expand to support diverse business and user queries, such policies, often implemented as in-context prompts, are becoming increasingly complex and lengthy, making faithful adherence difficult and imposing large fixed computational costs. With the rise of multimodal agents, policies that govern visual and multimodal behaviors are critical but remain understudied. Prior prompt-compression work mainly shortens task templates and demonstrations, while existing policy-alignment studies focus only on text-based safety rules. We introduce Multimodal Policy Internalization (MPI), a new task that internalizes reasoning-intensive multimodal policies into model parameters, enabling stronger policy-following without including the policy during inference. MPI poses unique data and algorithmic challenges. We build two datasets spanning synthetic and real-world decision-making and tool-using tasks and propose TriMPI, a three-stage training framework. TriMPI first injects policy knowledge via continual pretraining, then performs supervised finetuning, and finally applies PolicyRollout, a GRPO-style reinforcement learning extension that augments rollouts with policy-aware responses for grounded exploration. TriMPI achieves notable gains in end-to-end accuracy, generalization, and robustness to forgetting. As the first work on multimodal policy internalization, we provide datasets, training recipes, and comprehensive evaluations to foster future research. Project page: https://mikewangwzhl.github.io/TriMPI.
PDF42October 14, 2025