ChatPaper.aiChatPaper

대화형 에이전트를 위한 다중 양식 정책 내면화

Multimodal Policy Internalization for Conversational Agents

October 10, 2025
저자: Zhenhailong Wang, Jiateng Liu, Amin Fazel, Ritesh Sarkhel, Xing Fan, Xiang Li, Chenlei Guo, Heng Ji, Ruhi Sarikaya
cs.AI

초록

ChatGPT와 Alexa+와 같은 현대적 대화 에이전트는 메타데이터, 응답 스타일, 도구 사용 규칙 등을 명시한 사전 정의된 정책에 의존합니다. 이러한 대규모 언어 모델(LLM) 기반 시스템이 다양한 비즈니스 및 사용자 질의를 지원하기 위해 확장됨에 따라, 이러한 정책들은 종종 컨텍스트 내 프롬프트로 구현되면서 점점 더 복잡하고 길어져, 충실한 준수가 어려워지고 큰 고정 계산 비용을 초래하고 있습니다. 멀티모달 에이전트의 등장과 함께, 시각적 및 멀티모달 행동을 제어하는 정책이 중요해졌으나, 이에 대한 연구는 여전히 부족한 상태입니다. 기존의 프롬프트 압축 작업은 주로 작업 템플릿과 데모를 단축하는 데 초점을 맞추었으며, 기존의 정책 정렬 연구는 텍스트 기반 안전 규칙에만 집중했습니다. 본 연구에서는 멀티모달 정책 내재화(Multimodal Policy Internalization, MPI)라는 새로운 작업을 소개합니다. MPI는 추론 중에 정책을 포함하지 않고도 모델 파라미터 내에 추론 집약적인 멀티모달 정책을 내재화하여 더 강력한 정책 준수를 가능하게 합니다. MPI는 독특한 데이터 및 알고리즘적 도전 과제를 제기합니다. 우리는 합성 및 실제 세계의 의사 결정 및 도구 사용 작업을 아우르는 두 개의 데이터셋을 구축하고, TriMPI라는 세 단계의 훈련 프레임워크를 제안합니다. TriMPI는 먼저 지속적 사전 훈련을 통해 정책 지식을 주입한 후, 지도 미세 조정을 수행하고, 마지막으로 PolicyRollout을 적용합니다. PolicyRollout은 GRPO 스타일의 강화 학습 확장으로, 정책 인식 응답을 통해 롤아웃을 강화하여 근거 있는 탐색을 가능하게 합니다. TriMPI는 종단 간 정확도, 일반화, 그리고 망각에 대한 견고함에서 주목할 만한 성과를 달성했습니다. 멀티모달 정책 내재화에 관한 첫 번째 연구로서, 우리는 데이터셋, 훈련 레시피, 그리고 포괄적인 평가를 제공하여 향후 연구를 촉진하고자 합니다. 프로젝트 페이지: https://mikewangwzhl.github.io/TriMPI.
English
Modern conversational agents like ChatGPT and Alexa+ rely on predefined policies specifying metadata, response styles, and tool-usage rules. As these LLM-based systems expand to support diverse business and user queries, such policies, often implemented as in-context prompts, are becoming increasingly complex and lengthy, making faithful adherence difficult and imposing large fixed computational costs. With the rise of multimodal agents, policies that govern visual and multimodal behaviors are critical but remain understudied. Prior prompt-compression work mainly shortens task templates and demonstrations, while existing policy-alignment studies focus only on text-based safety rules. We introduce Multimodal Policy Internalization (MPI), a new task that internalizes reasoning-intensive multimodal policies into model parameters, enabling stronger policy-following without including the policy during inference. MPI poses unique data and algorithmic challenges. We build two datasets spanning synthetic and real-world decision-making and tool-using tasks and propose TriMPI, a three-stage training framework. TriMPI first injects policy knowledge via continual pretraining, then performs supervised finetuning, and finally applies PolicyRollout, a GRPO-style reinforcement learning extension that augments rollouts with policy-aware responses for grounded exploration. TriMPI achieves notable gains in end-to-end accuracy, generalization, and robustness to forgetting. As the first work on multimodal policy internalization, we provide datasets, training recipes, and comprehensive evaluations to foster future research. Project page: https://mikewangwzhl.github.io/TriMPI.
PDF42October 14, 2025