MMSkills: Rumo a Habilidades Multimodais para Agentes Visuais Gerais

Resumo

Habilidades reutilizáveis tornaram-se um substrato central para melhorar as capacidades dos agentes, mas a maioria dos pacotes de habilidades existentes codifica comportamentos reutilizáveis principalmente como prompts textuais, código executável ou rotinas aprendidas. Para agentes visuais, no entanto, o conhecimento processual é inerentemente multimodal: a reutilização depende não apenas de qual operação realizar, mas também do reconhecimento do estado relevante, da interpretação da evidência visual de progresso ou falha, e da decisão sobre o que fazer a seguir. Formalizamos esse requisito como conhecimento processual multimodal e abordamos três desafios práticos: (I) o que um pacote de habilidades multimodal deve conter; (II) de onde tais pacotes podem ser derivados a partir de experiências de interação pública; e (III) como os agentes podem consultar evidências multimodais no momento da inferência sem excesso de contexto de imagem ou ancoragem excessiva em capturas de tela de referência. Introduzimos o MMSkills, uma estrutura para representar, gerar e usar procedimentos multimodais reutilizáveis para tomada de decisão visual em tempo de execução. Cada MMSkill é um pacote compacto e condicionado ao estado que combina um procedimento textual com cartões de estado em tempo de execução e quadros-chave multivisão. Para construir esses pacotes, desenvolvemos um Gerador de trajetória-para-habilidade agentivo que transforma trajetórias públicas de não avaliação em habilidades multimodais reutilizáveis por meio de agrupamento de fluxos de trabalho, indução de procedimentos, fundamentação visual e auditoria guiada por meta-habilidades. Para utilizá-las, introduzimos um agente de habilidade multimodal com carga de ramificação: cartões de estado e quadros-chave selecionados são inspecionados em uma ramificação temporária, alinhados com o ambiente ao vivo e destilados em orientação estruturada para o agente principal. Experimentos em benchmarks de agentes visuais baseados em GUI e jogos mostram que o MMSkills melhora consistentemente tanto agentes multimodais de fronteira quanto menores, sugerindo que o conhecimento processual multimodal externo complementa os conhecimentos prévios internos do modelo.

English

Reusable skills have become a core substrate for improving agent capabilities, yet most existing skill packages encode reusable behavior primarily as textual prompts, executable code, or learned routines. For visual agents, however, procedural knowledge is inherently multimodal: reuse depends not only on what operation to perform, but also on recognizing the relevant state, interpreting visual evidence of progress or failure, and deciding what to do next. We formalize this requirement as multimodal procedural knowledge and address three practical challenges: (I) what a multimodal skill package should contain; (II) where such packages can be derived from public interaction experience; and (III) how agents can consult multimodal evidence at inference time without excessive image context or over-anchoring to reference screenshots. We introduce MMSkills, a framework for representing, generating, and using reusable multimodal procedures for runtime visual decision making. Each MMSkill is a compact, state-conditioned package that couples a textual procedure with runtime state cards and multi-view keyframes. To construct these packages, we develop an agentic trajectory-to-skill Generator that transforms public non-evaluation trajectories into reusable multimodal skills through workflow grouping, procedure induction, visual grounding, and meta-skill-guided auditing. To use them, we introduce a branch-loaded multimodal skill agent: selected state cards and keyframes are inspected in a temporary branch, aligned with the live environment, and distilled into structured guidance for the main agent. Experiments across GUI and game-based visual-agent benchmarks show that MMSkills consistently improve both frontier and smaller multimodal agents, suggesting that external multimodal procedural knowledge complements model-internal priors.