会話エージェントのためのマルチモーダル政策内面化
Multimodal Policy Internalization for Conversational Agents
October 10, 2025
著者: Zhenhailong Wang, Jiateng Liu, Amin Fazel, Ritesh Sarkhel, Xing Fan, Xiang Li, Chenlei Guo, Heng Ji, Ruhi Sarikaya
cs.AI
要旨
ChatGPTやAlexa+のような現代の対話エージェントは、メタデータ、応答スタイル、ツール使用ルールを指定する事前定義されたポリシーに依存しています。これらのLLMベースのシステムが多様なビジネスやユーザークエリをサポートするために拡張されるにつれ、コンテキスト内プロンプトとして実装されることが多いこれらのポリシーは、ますます複雑で長大になり、忠実な遵守が困難となり、大きな固定計算コストを課しています。マルチモーダルエージェントの台頭に伴い、視覚的およびマルチモーダルな行動を制御するポリシーは重要ですが、まだ十分に研究されていません。これまでのプロンプト圧縮研究は主にタスクテンプレートとデモンストレーションの短縮に焦点を当てており、既存のポリシーアライメント研究はテキストベースの安全ルールのみに焦点を当てています。本論文では、推論中にポリシーを含めることなく、推論集約型のマルチモーダルポリシーをモデルパラメータに内在化する新しいタスクであるMultimodal Policy Internalization(MPI)を紹介します。MPIは、データとアルゴリズムの面で独自の課題を提起します。私たちは、合成および実世界の意思決定とツール使用タスクにまたがる2つのデータセットを構築し、TriMPIという3段階のトレーニングフレームワークを提案します。TriMPIは、まず継続的な事前学習を通じてポリシー知識を注入し、次に教師ありファインチューニングを行い、最後にPolicyRolloutを適用します。PolicyRolloutは、GRPOスタイルの強化学習拡張であり、ポリシーを意識した応答をロールアウトに追加して、接地された探索を可能にします。TriMPIは、エンドツーエンドの精度、一般化、忘却に対するロバスト性において顕著な向上を達成します。マルチモーダルポリシー内在化に関する最初の研究として、データセット、トレーニングレシピ、包括的な評価を提供し、将来の研究を促進します。プロジェクトページ: https://mikewangwzhl.github.io/TriMPI。
English
Modern conversational agents like ChatGPT and Alexa+ rely on predefined
policies specifying metadata, response styles, and tool-usage rules. As these
LLM-based systems expand to support diverse business and user queries, such
policies, often implemented as in-context prompts, are becoming increasingly
complex and lengthy, making faithful adherence difficult and imposing large
fixed computational costs. With the rise of multimodal agents, policies that
govern visual and multimodal behaviors are critical but remain understudied.
Prior prompt-compression work mainly shortens task templates and
demonstrations, while existing policy-alignment studies focus only on
text-based safety rules. We introduce Multimodal Policy Internalization (MPI),
a new task that internalizes reasoning-intensive multimodal policies into model
parameters, enabling stronger policy-following without including the policy
during inference. MPI poses unique data and algorithmic challenges. We build
two datasets spanning synthetic and real-world decision-making and tool-using
tasks and propose TriMPI, a three-stage training framework. TriMPI first
injects policy knowledge via continual pretraining, then performs supervised
finetuning, and finally applies PolicyRollout, a GRPO-style reinforcement
learning extension that augments rollouts with policy-aware responses for
grounded exploration. TriMPI achieves notable gains in end-to-end accuracy,
generalization, and robustness to forgetting. As the first work on multimodal
policy internalization, we provide datasets, training recipes, and
comprehensive evaluations to foster future research. Project page:
https://mikewangwzhl.github.io/TriMPI.