MMSkills: Naar Multimodale Vaardigheden voor Algemene Visuele Agenten

Samenvatting

Herbruikbare vaardigheden zijn een kernsubstraat geworden voor het verbeteren van agentcapaciteiten, maar de meeste bestaande vaardigheidspakketten coderen herbruikbaar gedrag voornamelijk als tekstuele prompts, uitvoerbare code of aangeleerde routines. Voor visuele agenten is procedurele kennis echter inherent multimodaal: hergebruik hangt niet alleen af van welke operatie moet worden uitgevoerd, maar ook van het herkennen van de relevante toestand, het interpreteren van visueel bewijs van voortgang of falen, en het beslissen wat te doen. We formaliseren deze vereiste als multimodale procedurele kennis en behandelen drie praktische uitdagingen: (I) wat een multimodaal vaardigheidspakket zou moeten bevatten; (II) waar dergelijke pakketten kunnen worden afgeleid van publieke interactie-ervaring; en (III) hoe agenten multimodaal bewijs kunnen raadplegen tijdens inferentie zonder overmatige beeldcontext of overmatige verankering aan referentieschermafbeeldingen. We introduceren MMSkills, een raamwerk voor het representeren, genereren en gebruiken van herbruikbare multimodale procedures voor visuele besluitvorming tijdens runtime. Elke MMSkill is een compact, toestandsafhankelijk pakket dat een tekstuele procedure koppelt aan runtime-toestandskaarten en multi-view keyframes. Om deze pakketten te construeren, ontwikkelen we een agentische traject-naar-vaardigheid Generator die publieke niet-evaluatietrajecten transformeert in herbruikbare multimodale vaardigheden door workflowgroepering, procedure-inductie, visuele verankering en meta-vaardigheid-gestuurde auditing. Om ze te gebruiken, introduceren we een branch-geladen multimodale vaardigheidsagent: geselecteerde toestandskaarten en keyframes worden geïnspecteerd in een tijdelijke branch, afgestemd op de live-omgeving, en gedestilleerd tot gestructureerde richtlijnen voor de hoofdagent. Experimenten op GUI- en game-gebaseerde visuele-agent benchmarks tonen aan dat MMSkills zowel frontier- als kleinere multimodale agenten consistent verbetert, wat suggereert dat externe multimodale procedurele kennis model-interne priori aanvult.

English

Reusable skills have become a core substrate for improving agent capabilities, yet most existing skill packages encode reusable behavior primarily as textual prompts, executable code, or learned routines. For visual agents, however, procedural knowledge is inherently multimodal: reuse depends not only on what operation to perform, but also on recognizing the relevant state, interpreting visual evidence of progress or failure, and deciding what to do next. We formalize this requirement as multimodal procedural knowledge and address three practical challenges: (I) what a multimodal skill package should contain; (II) where such packages can be derived from public interaction experience; and (III) how agents can consult multimodal evidence at inference time without excessive image context or over-anchoring to reference screenshots. We introduce MMSkills, a framework for representing, generating, and using reusable multimodal procedures for runtime visual decision making. Each MMSkill is a compact, state-conditioned package that couples a textual procedure with runtime state cards and multi-view keyframes. To construct these packages, we develop an agentic trajectory-to-skill Generator that transforms public non-evaluation trajectories into reusable multimodal skills through workflow grouping, procedure induction, visual grounding, and meta-skill-guided auditing. To use them, we introduce a branch-loaded multimodal skill agent: selected state cards and keyframes are inspected in a temporary branch, aligned with the live environment, and distilled into structured guidance for the main agent. Experiments across GUI and game-based visual-agent benchmarks show that MMSkills consistently improve both frontier and smaller multimodal agents, suggesting that external multimodal procedural knowledge complements model-internal priors.