MMSkills: Hacia Habilidades Multimodales para Agentes Visuales Generales

Resumen

Las habilidades reutilizables se han convertido en un sustrato fundamental para mejorar las capacidades de los agentes, sin embargo, la mayoría de los paquetes de habilidades existentes codifican el comportamiento reutilizable principalmente como indicaciones textuales, código ejecutable o rutinas aprendidas. Para los agentes visuales, no obstante, el conocimiento procedimental es intrínsecamente multimodal: la reutilización depende no solo de qué operación realizar, sino también de reconocer el estado relevante, interpretar la evidencia visual del progreso o fracaso, y decidir qué hacer a continuación. Formalizamos este requisito como conocimiento procedimental multimodal y abordamos tres desafíos prácticos: (I) qué debe contener un paquete de habilidades multimodal; (II) de dónde se pueden derivar dichos paquetes a partir de la experiencia de interacción pública; y (III) cómo pueden los agentes consultar evidencia multimodal en tiempo de inferencia sin un exceso de contexto de imagen o un anclaje excesivo a capturas de pantalla de referencia. Presentamos MMSkills, un marco para representar, generar y utilizar procedimientos multimodales reutilizables para la toma de decisiones visuales en tiempo de ejecución. Cada MMSkill es un paquete compacto y condicionado por el estado que combina un procedimiento textual con tarjetas de estado en tiempo de ejecución y fotogramas clave multivista. Para construir estos paquetes, desarrollamos un Generador de trayectoria a habilidad basado en agente que transforma trayectorias públicas no evaluativas en habilidades multimodales reutilizables mediante agrupación de flujos de trabajo, inducción de procedimientos, fundamentación visual y auditoría guiada por meta-habilidades. Para utilizarlos, introducimos un agente de habilidades multimodales con carga ramificada: las tarjetas de estado y fotogramas clave seleccionados se inspeccionan en una rama temporal, se alinean con el entorno en vivo y se destilan en orientación estructurada para el agente principal. Experimentos en puntos de referencia de agentes visuales basados en GUI y juegos muestran que MMSkills mejora consistentemente tanto a los agentes multimodales fronterizos como a los más pequeños, lo que sugiere que el conocimiento procedimental multimodal externo complementa las prioridades internas del modelo.

English

Reusable skills have become a core substrate for improving agent capabilities, yet most existing skill packages encode reusable behavior primarily as textual prompts, executable code, or learned routines. For visual agents, however, procedural knowledge is inherently multimodal: reuse depends not only on what operation to perform, but also on recognizing the relevant state, interpreting visual evidence of progress or failure, and deciding what to do next. We formalize this requirement as multimodal procedural knowledge and address three practical challenges: (I) what a multimodal skill package should contain; (II) where such packages can be derived from public interaction experience; and (III) how agents can consult multimodal evidence at inference time without excessive image context or over-anchoring to reference screenshots. We introduce MMSkills, a framework for representing, generating, and using reusable multimodal procedures for runtime visual decision making. Each MMSkill is a compact, state-conditioned package that couples a textual procedure with runtime state cards and multi-view keyframes. To construct these packages, we develop an agentic trajectory-to-skill Generator that transforms public non-evaluation trajectories into reusable multimodal skills through workflow grouping, procedure induction, visual grounding, and meta-skill-guided auditing. To use them, we introduce a branch-loaded multimodal skill agent: selected state cards and keyframes are inspected in a temporary branch, aligned with the live environment, and distilled into structured guidance for the main agent. Experiments across GUI and game-based visual-agent benchmarks show that MMSkills consistently improve both frontier and smaller multimodal agents, suggesting that external multimodal procedural knowledge complements model-internal priors.