Internalización de Políticas Multimodales para Agentes Conversacionales
Multimodal Policy Internalization for Conversational Agents
October 10, 2025
Autores: Zhenhailong Wang, Jiateng Liu, Amin Fazel, Ritesh Sarkhel, Xing Fan, Xiang Li, Chenlei Guo, Heng Ji, Ruhi Sarikaya
cs.AI
Resumen
Los agentes conversacionales modernos como ChatGPT y Alexa+ dependen de políticas predefinidas que especifican metadatos, estilos de respuesta y reglas de uso de herramientas. A medida que estos sistemas basados en modelos de lenguaje (LLM) se expanden para abordar consultas diversas de negocios y usuarios, dichas políticas, a menudo implementadas como indicaciones en contexto, se están volviendo cada vez más complejas y extensas, lo que dificulta su fiel adherencia e impone costos computacionales fijos elevados. Con el auge de los agentes multimodales, las políticas que gobiernan comportamientos visuales y multimodales son cruciales, pero siguen siendo poco estudiadas. Los trabajos previos sobre compresión de indicaciones se centran principalmente en acortar plantillas de tareas y demostraciones, mientras que los estudios existentes sobre alineación de políticas se enfocan únicamente en reglas de seguridad basadas en texto. Introducimos la Internalización de Políticas Multimodales (MPI), una nueva tarea que internaliza políticas multimodales intensivas en razonamiento en los parámetros del modelo, permitiendo un seguimiento más robusto de las políticas sin incluirlas durante la inferencia. MPI plantea desafíos únicos en datos y algoritmos. Construimos dos conjuntos de datos que abarcan tareas sintéticas y del mundo real de toma de decisiones y uso de herramientas, y proponemos TriMPI, un marco de entrenamiento de tres etapas. TriMPI primero inyecta conocimiento de políticas mediante preentrenamiento continuo, luego realiza ajuste fino supervisado y finalmente aplica PolicyRollout, una extensión de aprendizaje por refuerzo al estilo GRPO que aumenta las ejecuciones con respuestas conscientes de las políticas para una exploración fundamentada. TriMPI logra avances notables en precisión de extremo a extremo, generalización y robustez frente al olvido. Como el primer trabajo sobre internalización de políticas multimodales, proporcionamos conjuntos de datos, recetas de entrenamiento y evaluaciones exhaustivas para fomentar investigaciones futuras. Página del proyecto: https://mikewangwzhl.github.io/TriMPI.
English
Modern conversational agents like ChatGPT and Alexa+ rely on predefined
policies specifying metadata, response styles, and tool-usage rules. As these
LLM-based systems expand to support diverse business and user queries, such
policies, often implemented as in-context prompts, are becoming increasingly
complex and lengthy, making faithful adherence difficult and imposing large
fixed computational costs. With the rise of multimodal agents, policies that
govern visual and multimodal behaviors are critical but remain understudied.
Prior prompt-compression work mainly shortens task templates and
demonstrations, while existing policy-alignment studies focus only on
text-based safety rules. We introduce Multimodal Policy Internalization (MPI),
a new task that internalizes reasoning-intensive multimodal policies into model
parameters, enabling stronger policy-following without including the policy
during inference. MPI poses unique data and algorithmic challenges. We build
two datasets spanning synthetic and real-world decision-making and tool-using
tasks and propose TriMPI, a three-stage training framework. TriMPI first
injects policy knowledge via continual pretraining, then performs supervised
finetuning, and finally applies PolicyRollout, a GRPO-style reinforcement
learning extension that augments rollouts with policy-aware responses for
grounded exploration. TriMPI achieves notable gains in end-to-end accuracy,
generalization, and robustness to forgetting. As the first work on multimodal
policy internalization, we provide datasets, training recipes, and
comprehensive evaluations to foster future research. Project page:
https://mikewangwzhl.github.io/TriMPI.