MMSkills : Vers des compétences multimodales pour des agents visuels généraux

Résumé

Les compétences réutilisables sont devenues un substrat essentiel pour améliorer les capacités des agents. Pourtant, la plupart des packages de compétences existants encodent les comportements réutilisables principalement sous forme d'invites textuelles, de code exécutable ou de routines apprises. Pour les agents visuels, cependant, la connaissance procédurale est intrinsèquement multimodale : la réutilisation ne dépend pas seulement de l'opération à effectuer, mais aussi de la reconnaissance de l'état pertinent, de l'interprétation des indices visuels de progression ou d'échec, et de la décision quant à la prochaine action. Nous formalisons cette exigence sous le nom de connaissance procédurale multimodale et abordons trois défis pratiques : (I) ce qu'un package de compétences multimodales devrait contenir ; (II) où de tels packages peuvent être dérivés d'expériences d'interaction publiques ; et (III) comment les agents peuvent consulter des preuves multimodales lors de l'inférence sans un contexte d'image excessif ou un ancrage excessif dans des captures d'écran de référence. Nous présentons MMSkills, un cadre pour représenter, générer et utiliser des procédures multimodales réutilisables pour la prise de décision visuelle en temps réel. Chaque MMSkill est un package compact et conditionné par l'état, qui associe une procédure textuelle à des cartes d'état d'exécution et à des images clés multi-vues. Pour construire ces packages, nous développons un générateur agentique trajectoire-à-compétence qui transforme les trajectoires publiques non-évaluation en compétences multimodales réutilisables via le regroupement de workflows, l'induction de procédures, l'ancrage visuel et l'audit guidé par méta-compétences. Pour les utiliser, nous introduisons un agent de compétences multimodales à branche chargée : les cartes d'état et images clés sélectionnées sont inspectées dans une branche temporaire, alignées avec l'environnement en direct, et distillées en directives structurées pour l'agent principal. Les expériences menées sur des benchmarks d'agents visuels basés sur des interfaces graphiques et des jeux montrent que MMSkills améliore de manière constante à la fois les agents multimodaux de pointe et ceux plus petits, suggérant que la connaissance procédurale multimodale externe complète les connaissances internes des modèles.

English

Reusable skills have become a core substrate for improving agent capabilities, yet most existing skill packages encode reusable behavior primarily as textual prompts, executable code, or learned routines. For visual agents, however, procedural knowledge is inherently multimodal: reuse depends not only on what operation to perform, but also on recognizing the relevant state, interpreting visual evidence of progress or failure, and deciding what to do next. We formalize this requirement as multimodal procedural knowledge and address three practical challenges: (I) what a multimodal skill package should contain; (II) where such packages can be derived from public interaction experience; and (III) how agents can consult multimodal evidence at inference time without excessive image context or over-anchoring to reference screenshots. We introduce MMSkills, a framework for representing, generating, and using reusable multimodal procedures for runtime visual decision making. Each MMSkill is a compact, state-conditioned package that couples a textual procedure with runtime state cards and multi-view keyframes. To construct these packages, we develop an agentic trajectory-to-skill Generator that transforms public non-evaluation trajectories into reusable multimodal skills through workflow grouping, procedure induction, visual grounding, and meta-skill-guided auditing. To use them, we introduce a branch-loaded multimodal skill agent: selected state cards and keyframes are inspected in a temporary branch, aligned with the live environment, and distilled into structured guidance for the main agent. Experiments across GUI and game-based visual-agent benchmarks show that MMSkills consistently improve both frontier and smaller multimodal agents, suggesting that external multimodal procedural knowledge complements model-internal priors.